正態分佈的前世今生

  • 作者:由 匿名使用者 發表于 攝影
  • 2023-01-30

正態分佈的前世今生戶如樂9318 2022-07-10

轉自-靳志輝(Rickjin@weibo。com)

神說要有正態分佈,就有了正態分佈。

神說正態分佈是好的,就讓 隨機誤差 服從了正態分佈

創世紀——-數理統計

正態分佈通常又稱為高斯分佈,其重要作用是使用在誤差分析上

對於有誤差的測量資料,多次測量取平均是一種比較好的做法;描述如下,我們假設想估計的量是b0,b1。。。bp,另外有若干可以測量的量x1,。。。xp,y,這些量之間存線上性關係

如何透過多組觀測資料求解出引數b?尤拉和拉普拉斯採用的都是求解線性方程組的方法

但是面臨的一個問題是,有n組觀測資料,p+1個變數,如果n>p+1,則無法求解。

因為存在這樣的矛盾,因此採用最小二乘法來解決,其基本思想就是認為測量中有誤差,所以所有方程的累積誤差為

我們求解出導致累積誤差最小的引數即可。

最小二乘法的優良性作了幾點說明:

1。 最小二乘法使得誤差平方和最小,並在各個方程的誤差之間建立了一種平衡,從而防止某一個極端誤差取得支配地位

2。 計算中只要求偏導後求解線性方程組,計算過程明確便捷

3。 最小二乘可以匯出算術平均值作為估計值

單說最小二乘本身是一個代數方法,雖然可以匯出最優解,對於解的誤差有多大?無法給出有效分析,高斯把最小二乘法和正態分佈聯絡在了一起,並使得正態分佈在統計誤差分析中確立了自己的地位。

————尋找隨機誤差分佈規律

經驗(算術平均可以消除誤差,提高精度)——-問題是隨機誤差服從什麼分佈?伽利略說1。誤差是對稱分佈的;2。 大的誤差出現的頻率低,小的誤差出現頻率高

拉普拉斯加入

高斯猜想

誤差分佈匯出的極大似然估計=算術平均值

那麼正態分佈就由極大似然估計推出,基於這個誤差分佈函式對最小二乘法給出了一個非常漂亮的解釋。對於最小二乘法中的每個誤差ei服從正態分佈,那麼對於誤差e1,e2,。。。en的聯合機率分佈為

要使這個機率最大,那麼就是求誤差平方和最小。因此,高斯所拓展的最小二乘法就稱為了19世紀統計學的重要成就。相當於18世紀數學上的微分學。

而我們熟知的公式實際是由二階微分方程推導所得出

————-正態分佈與最大熵

機率分佈熵

均值μ是一階原點矩,方差是二階原點矩。因此熵的最大的機率分佈p(x|μ,方差)就是正態分佈

因此最大熵的分佈就是正態分佈。正態分佈熵的大小,取決於方差的大小。熵的大小反應機率分佈中的資訊量,而正態分佈的形態是由方差所決定。因此資訊量與方差有著重要關係

——拉普拉斯中心極限定理

設X1,X2,。。。,Xn獨立同分布,且具有有限均值μ和方差,則在n->無窮

——統計分析和誤差分析是兩種不同的概念

統計分析——對不同物件的測量

誤差分析——對同一物件的多次測量

把統計和機率論聯絡在一起——-正態分佈對於統計資料的擬合

——20世紀的三大分佈卡方分佈、t分佈和f分佈

人工實驗條件下所得資料的統計分析問題,逐漸被人們重視,由於實驗資料量有限,依賴於正態分佈的方法開始遭到質疑

在這個背景下,統計學三大分佈卡方分佈,t分佈,F分佈開始登上歷史舞臺(英國三大數理統計學家)

——-Pearson

Pearson進一步推導了卡方分佈,最早的提出者是物理學家推導空氣分子的運動速度,發現在三個座標軸上分別呈正態分佈,而分子運動速度的平方v^2符合自由度為3的卡方分佈。Pearson的假設檢驗

——t分佈

戈塞特提出了樣本均值與標準差比值的分佈

——-F分佈 fisher

極大似然估計,X和Y分別服從卡方分佈

迴歸正態分佈

1。 為什麼正態分佈被如此廣泛地使用?

2。 為什麼正態分佈在實踐使用中非常成功?

Jaynes指出,正態分佈在實踐中成功地被廣泛應用,主要是因為正態分佈在數學方面具有多種穩定性質,這些性質包括:

1。 兩個正態分佈密度的乘積還是正態分佈

2。 兩個正態分佈密度的卷積還是正態分佈,也就是兩個正態分佈的和還是正態分佈

3。 正態分佈的傅立葉變換還是正態分佈

4。 中心極限定理保證了多個隨機變數的求和效應將導致正態分佈效應

5。 正態分佈和其他具有相同方差的其他分佈相比,具有最大熵

前三個性質保證正態分佈的形態穩定。後兩個性質說明其他分佈在各種操作下容易越來越接近正態分佈

正態分佈具有 最大熵 性質,所以任何一個對指定機率分佈的操作,如果該操作保持方差大小,卻減少已知知識,該操作不可避免地增加機率分佈的資訊熵,導致機率分佈向正態分佈靠近。

正態分佈還有一個經常使用的原因正是由於它的最大熵性質。在很多時候我們沒有任何外界知識知道資料的真實分佈是什麼,但是均值和方差往往是穩定的,我們能從資料中獲取到比較好的知識就是均值和方差,除此之外沒有其他更加有用的資訊量。因此按照最大熵原理,在給定知識的限制下,選擇熵最大的機率分佈。

Top