常態分佈

常態分佈是什麼?

常態分佈是母體值的理論分佈。繪製在圖表上時通常被稱為「鐘形曲線」,常態分佈的資料傾向於圍繞中心值累積;中心上方和下方之值的出現頻率呈對稱下降。

如何使用常態分佈?

很多統計分析方法都假設資料遵循常態分佈。若不是,則分析可能不正確。

我可以檢查資料是否「正常」嗎?

可以。您可以進行簡單的目視檢查。大多數統計軟體都會進行正規統計測試。

常態分佈的定義

瞭解如何使用統計軟體評估常態性

常態分佈是母體值的理論分佈,具有精確的數學定義。遵循常態分佈樣本的資料值稱為「常態分佈」。但與其深入探討複雜的數學,讓我們來看看常態分佈的一些實用屬性,以及為什麼這對分析來說相當重要。

首先,我們為什麼注重常態分佈?

  • 許多測量值呈常態分佈,或幾乎呈常態分佈。例如身高、體重和心率。請注意,所有這些資料的測量尺度使用許多可能值。
  • 許多測量值的平均值呈常態分佈,或幾乎呈常態分佈。例如,您的每日通勤時間可能不呈常態分佈,但您每日通勤時間的月平均值可能呈常態分佈。
  • 許多統計方法都要求資料遵循常態分佈。在這種情況下,您會發現某個方法「假設資料遵循常態分佈」或「假設呈常態性」。

對於一組資料值,首先應該是查看資料呈現的形狀。常態分佈具有對稱形狀。有時將其稱為「鐘形曲線」,因為分佈圖看起來像置於地上的鐘。

下圖 1 顯示了一組樣本資料值的直方圖以及理論常態分佈(彎曲的藍線)。直方圖是一種長條圖,用於顯示資料值的出現頻率。您會發現資料與曲線不完全匹配,這很常見。實際上,如果發現資料恰好完全符合理論常態分佈,您可能會有很多問題需要問。因為現實生活,很少有資料會和常態分佈完全匹配。

圖 1:近似常態分佈的資料直方圖

特點概覽

常態分佈具有以下特點:

  1. 它完全由平均數和標準差定義。
  2. 平均數、中位數和眾數都相同。
  3. 對稱,
  4. 呈鐘形曲線。

每個特點都很重要,並且可以提供資料的特徵。具體如下:

1. 常態分佈是由平均數和標準差定義

我們只需要兩個值(平均數和標準差)就可以繪製特定常態分佈的圖。(要進一步瞭解常態分佈資料的平均數和標準差之間的關係,請閱讀經驗法則。)

平均數和標準差稱為常態分佈的參數。所有分佈都有參數,有些分佈有兩個以上的參數。在任何情況下,參數都會定義特定的分佈。

讓我們看一些常態分佈曲線的範例。

圖 2 為兩個常態分佈,每個平均數都相同,均為 30。較窄、較高的藍色分佈的標準差為 5。較寬、較短的橙色分佈的標準差為 10。

圖 2:平均數相同、但標準差不同的兩個常態分佈

圖 3 還顯示了兩個標準差相同的常態分佈,其標準差皆為 5。左邊的那個橘色分佈,平均數為 20,而右邊的那個藍色分佈,平均數為 40。

圖 3:平均數不同但標準差相同的兩個常態分佈

圖 4 再次顯示了兩個常態分佈。橙色分佈的平均數為 30,標準差為 10。藍色分佈的平均數為 40,標準差為 5。

圖 4:平均數和標準差均不同的兩個常態分佈

2. 平均數 = 中位數 = 眾數

平均數、中位數和眾數是測量一組資料值集中趨勢的三種方法。對於真正的常態分佈,這三個值完全相同。實作中,資料可能會接近常態。平均數、中位數和眾數可能非常接近,但並不完全相同。

圖 5:平均數、中位數和眾數相同的真正常態分佈

3. 對稱

常態分佈是對稱的。如果您從平均數將分佈圖形對折,兩邊會是同等大小。

4. 鐘形曲線

常態分佈呈鐘形,中央有一個「駝峰」,如上例所示。

圖 6 為非常態分佈,有兩個駝峰而不是一個。具有兩個駝峰的分佈可能表明資料中有不同組混合在一起。例如,心率通常呈常態分佈。但是,假設在您毫不知情的情況下,資料包含了兩組族群的靜止心率:運動員組和久坐族組,則可能會出現如下所示的雙峰分佈。

圖 6:非常態雙峰分佈

如資料為非常態,是不是有異常?

若資料不是「常態」,這是否意味著有異常?不,這是否意味著資料不甚理想?不,因為不同類型的資料,會呈現不同類型的分佈。

有諸多可能的理論分佈。許多統計方法都要求資料遵循常態分佈。若情況並非如此,您還可以使用其他方法。

實作中,您會發現資料通常「近乎呈常態」。有一些簡單的視覺化工具可以用來檢驗資料是否符合常態分佈,大多數統計軟體也提供了檢驗常態性的統計方法。

有哪些資料範例未呈常態分佈?

  • 六面骰子的單次投擲
  • 擲硬幣
  • 製造中的良率檢查
  • 排隊等候時間
  • 電池或其他電子產品的故障時間
  • 網路上發布之影片的檔案大小

儘管以上範例並非常態分佈,但這些類型的資料也有分析方法。

檢查常態性的視覺工具

使用直方圖

如上所述,直方圖是特殊類型的頻率長條圖,用於連續變數。此圖表可以幫助您查看資料是否呈現一般鐘形曲線。使用某些軟體套件,您還可以為直方圖新增常態曲線,以直覺地比較資料。

圖 7 為非常態分佈資料的直方圖範例。

圖 7:非常態資料的直方圖

查看直方圖以進行常態性目視檢查時,請查看圖表是否:

  • 有沒有極端值。
  • 呈現兩側幾乎相同的對稱曲線。
  • 是否呈鐘形。

如您所見,圖 7 具有極端值,不對稱且不呈鍾形。

使用箱形圖

常態分佈的箱形圖顯示平均數與中位數相同,同時還表明資料不存在極端值。資料呈對稱分佈。

看看下方圖 8 和圖 9 中的兩個箱形圖。圖 8 中的資料趨近於常態分佈。圖 9 中的資料遵循非常態分佈。

查看箱形圖以進行常態性目視檢查時,請查看該圖是否顯示:

  • 有沒有極端值。圖 9 中的非常態分佈圖將三個離群值顯示為紅點。圖 8 中的近常態分佈圖顯示沒有離群值。
  • 是否對稱。近常態分佈圖(圖 8)具有對稱性,而非常態分佈圖(圖 9)則不具有對稱性。
  • 平均數和中位數幾乎相等。在這些箱形圖中,箱框中的水平黑色中心線是中位數,藍線是平均數。對於圖 8 的近常態分佈,平均數的藍線與箱框中間的中位數線幾乎趨同。
圖 8:近常態分佈的箱形圖
圖 9:非常態資料的箱形圖

使用常態分位圖

常態分位圖將常態分佈顯示為直線而非鐘形曲線。如果資料正常,則資料值將接近直線。若資料不正常,則資料值將偏離直線。圖上的資料模式可以幫助您瞭解為什麼資料不呈常態分佈。

圖 10 顯示常態分佈資料的常態分位數圖。您會發現大多數資料值如何落在紅實線附近。資料值也都落在紅虛線置信度範圍內。

圖 11 顯示的資料不呈常態分佈。某些資料值靠近紅實線,但大多數不是。某些資料值超出了紅虛線置信度範圍。右上角也有一些極端值。

圖 10:常態分布資料的常態分位數圖。
圖 11:非常態分布資料的常態分位數圖。

大多數統計軟體都會建立常態分位數圖。查看常態分位數圖以判斷常態性時,請看看資料是否:

  • 有沒有極端值。
  • 主要沿著顯示常態分佈的線。
  • 大多數情況下都在信賴區間範圍內。

常態分佈之用途

連續資料:是

常態分佈適用於連續資料,因為這些資料的測量尺度使用許多可能值。部分連續資料範例如下:

  • 年齡
  • 血壓
  • 體重
  • 溫度
  • 速度

對於所有這些範例,考慮使用假設資料遵循常態分佈的方法可能較合理。但是,不要忘了,並非所有連續資料都遵循常態分佈。繪製資料,並在套用假定常態性的方法之前考慮資料代表的內容。

排序或名目資料:否

常態分佈不適用於原始排序或原始名目資料,因為這些資料的測量尺度只使用少數可能值。

排序資料的樣本會分成群組,且回應通常有既定排序。例如,在要求您以「非常不同意」到「非常同意」的尺度提供意見的調查中,您的回應即為排序資料。

名目資料的樣本也會分成組,但沒有特定排序。兩個範例分別為生物性別和居住國家。您可以在樣本中使用 M 代表男性,F 代表女性,也可以使用 0 和 1。對於國家/地區,您可以使用國家/地區縮寫,或者使用數字編碼國家/地區名稱。即使您對這些資料使用數字,使用常態分佈也沒有意義。

其他主題

常態檢定

大多數統計軟體套件都包含常態性的形式測試。這些測試假定資料遵循常態分佈;然後,測試作業使用資料來檢查此假設是否合理。

使用 t 分佈

常態分佈是理論上的分佈。它完全由母體平均數和母體標準差定義。

實作中,我們幾乎從不可能知道這兩個統計資料的母體值。

t 分佈與常態分佈非常相似。它使用樣本平均數和樣本標準差。由於它使用這些估計值,因此還需要一個參數才能完全對其進行定義。

另一參數是自由度,即樣本數量減去 1。如果 n 是樣本數量,則自由度顯示為 n-1。記住這一點的簡單方法是,t 分佈在自由度中具有「校正因子」。此校正因子有助於說明分佈基於樣本平均數和樣本標準差,而不是未知母體值的事實。