正態分佈的前世今生
- 2023-01-30
轉自-靳志輝(Rickjin@weibo。com)
神說要有正態分佈,就有了正態分佈。
神說正態分佈是好的,就讓 隨機誤差 服從了正態分佈
創世紀——-數理統計
正態分佈通常又稱為高斯分佈,其重要作用是使用在誤差分析上
對於有誤差的測量資料,多次測量取平均是一種比較好的做法;描述如下,我們假設想估計的量是b0,b1。。。bp,另外有若干可以測量的量x1,。。。xp,y,這些量之間存線上性關係
如何透過多組觀測資料求解出引數b?尤拉和拉普拉斯採用的都是求解線性方程組的方法
但是面臨的一個問題是,有n組觀測資料,p+1個變數,如果n>p+1,則無法求解。
因為存在這樣的矛盾,因此採用最小二乘法來解決,其基本思想就是認為測量中有誤差,所以所有方程的累積誤差為
我們求解出導致累積誤差最小的引數即可。
最小二乘法的優良性作了幾點說明:
1。 最小二乘法使得誤差平方和最小,並在各個方程的誤差之間建立了一種平衡,從而防止某一個極端誤差取得支配地位
2。 計算中只要求偏導後求解線性方程組,計算過程明確便捷
3。 最小二乘可以匯出算術平均值作為估計值
單說最小二乘本身是一個代數方法,雖然可以匯出最優解,對於解的誤差有多大?無法給出有效分析,高斯把最小二乘法和正態分佈聯絡在了一起,並使得正態分佈在統計誤差分析中確立了自己的地位。
————尋找隨機誤差分佈規律
經驗(算術平均可以消除誤差,提高精度)——-問題是隨機誤差服從什麼分佈?伽利略說1。誤差是對稱分佈的;2。 大的誤差出現的頻率低,小的誤差出現頻率高
拉普拉斯加入
高斯猜想
誤差分佈匯出的極大似然估計=算術平均值
那麼正態分佈就由極大似然估計推出,基於這個誤差分佈函式對最小二乘法給出了一個非常漂亮的解釋。對於最小二乘法中的每個誤差ei服從正態分佈,那麼對於誤差e1,e2,。。。en的聯合機率分佈為
要使這個機率最大,那麼就是求誤差平方和最小。因此,高斯所拓展的最小二乘法就稱為了19世紀統計學的重要成就。相當於18世紀數學上的微分學。
而我們熟知的公式實際是由二階微分方程推導所得出
————-正態分佈與最大熵
機率分佈熵
均值μ是一階原點矩,方差是二階原點矩。因此熵的最大的機率分佈p(x|μ,方差)就是正態分佈
因此最大熵的分佈就是正態分佈。正態分佈熵的大小,取決於方差的大小。熵的大小反應機率分佈中的資訊量,而正態分佈的形態是由方差所決定。因此資訊量與方差有著重要關係
——拉普拉斯中心極限定理
設X1,X2,。。。,Xn獨立同分布,且具有有限均值μ和方差,則在n->無窮
——統計分析和誤差分析是兩種不同的概念
統計分析——對不同物件的測量
誤差分析——對同一物件的多次測量
把統計和機率論聯絡在一起——-正態分佈對於統計資料的擬合
——20世紀的三大分佈卡方分佈、t分佈和f分佈
人工實驗條件下所得資料的統計分析問題,逐漸被人們重視,由於實驗資料量有限,依賴於正態分佈的方法開始遭到質疑
在這個背景下,統計學三大分佈卡方分佈,t分佈,F分佈開始登上歷史舞臺(英國三大數理統計學家)
——-Pearson
Pearson進一步推導了卡方分佈,最早的提出者是物理學家推導空氣分子的運動速度,發現在三個座標軸上分別呈正態分佈,而分子運動速度的平方v^2符合自由度為3的卡方分佈。Pearson的假設檢驗
——t分佈
戈塞特提出了樣本均值與標準差比值的分佈
——-F分佈 fisher
極大似然估計,X和Y分別服從卡方分佈
迴歸正態分佈
1。 為什麼正態分佈被如此廣泛地使用?
2。 為什麼正態分佈在實踐使用中非常成功?
Jaynes指出,正態分佈在實踐中成功地被廣泛應用,主要是因為正態分佈在數學方面具有多種穩定性質,這些性質包括:
1。 兩個正態分佈密度的乘積還是正態分佈
2。 兩個正態分佈密度的卷積還是正態分佈,也就是兩個正態分佈的和還是正態分佈
3。 正態分佈的傅立葉變換還是正態分佈
4。 中心極限定理保證了多個隨機變數的求和效應將導致正態分佈效應
5。 正態分佈和其他具有相同方差的其他分佈相比,具有最大熵
前三個性質保證正態分佈的形態穩定。後兩個性質說明其他分佈在各種操作下容易越來越接近正態分佈
正態分佈具有 最大熵 性質,所以任何一個對指定機率分佈的操作,如果該操作保持方差大小,卻減少已知知識,該操作不可避免地增加機率分佈的資訊熵,導致機率分佈向正態分佈靠近。
正態分佈還有一個經常使用的原因正是由於它的最大熵性質。在很多時候我們沒有任何外界知識知道資料的真實分佈是什麼,但是均值和方差往往是穩定的,我們能從資料中獲取到比較好的知識就是均值和方差,除此之外沒有其他更加有用的資訊量。因此按照最大熵原理,在給定知識的限制下,選擇熵最大的機率分佈。