常態分佈
常態分佈是什麼?
常態分佈是母體值的理論分佈。繪製在圖表上時通常被稱為「鐘形曲線」,常態分佈的資料傾向於圍繞中心值累積;中心上方和下方之值的出現頻率呈對稱下降。
如何使用常態分佈?
很多統計分析方法都假設資料遵循常態分佈。若不是,則分析可能不正確。
我可以檢查資料是否「正常」嗎?
可以。您可以進行簡單的目視檢查。大多數統計軟體都會進行正規統計測試。
常態分佈的定義
常態分佈是母體值的理論分佈,具有精確的數學定義。遵循常態分佈樣本的資料值稱為「常態分佈」。但與其深入探討複雜的數學,讓我們來看看常態分佈的一些實用屬性,以及為什麼這對分析來說相當重要。
首先,我們為什麼注重常態分佈?
- 許多測量值呈常態分佈,或幾乎呈常態分佈。例如身高、體重和心率。請注意,所有這些資料的測量尺度使用許多可能值。
- 許多測量值的平均值呈常態分佈,或幾乎呈常態分佈。例如,您的每日通勤時間可能不呈常態分佈,但您每日通勤時間的月平均值可能呈常態分佈。
- 許多統計方法都要求資料遵循常態分佈。在這種情況下,您會發現某個方法「假設資料遵循常態分佈」或「假設呈常態性」。
對於一組資料值,首先應該是查看資料呈現的形狀。常態分佈具有對稱形狀。有時將其稱為「鐘形曲線」,因為分佈圖看起來像置於地上的鐘。
下圖 1 顯示了一組樣本資料值的直方圖以及理論常態分佈(彎曲的藍線)。直方圖是一種長條圖,用於顯示資料值的出現頻率。您會發現資料與曲線不完全匹配,這很常見。實際上,如果發現資料恰好完全符合理論常態分佈,您可能會有很多問題需要問。因為現實生活,很少有資料會和常態分佈完全匹配。
特點概覽
常態分佈具有以下特點:
- 它完全由平均數和標準差定義。
- 平均數、中位數和眾數都相同。
- 對稱,
- 呈鐘形曲線。
每個特點都很重要,並且可以提供資料的特徵。具體如下:
1. 常態分佈是由平均數和標準差定義
我們只需要兩個值(平均數和標準差)就可以繪製特定常態分佈的圖。(要進一步瞭解常態分佈資料的平均數和標準差之間的關係,請閱讀經驗法則。)
平均數和標準差稱為常態分佈的參數。所有分佈都有參數,有些分佈有兩個以上的參數。在任何情況下,參數都會定義特定的分佈。
讓我們看一些常態分佈曲線的範例。
圖 2 為兩個常態分佈,每個平均數都相同,均為 30。較窄、較高的藍色分佈的標準差為 5。較寬、較短的橙色分佈的標準差為 10。
圖 3 還顯示了兩個標準差相同的常態分佈,其標準差皆為 5。左邊的那個橘色分佈,平均數為 20,而右邊的那個藍色分佈,平均數為 40。
圖 4 再次顯示了兩個常態分佈。橙色分佈的平均數為 30,標準差為 10。藍色分佈的平均數為 40,標準差為 5。
2. 平均數 = 中位數 = 眾數
平均數、中位數和眾數是測量一組資料值集中趨勢的三種方法。對於真正的常態分佈,這三個值完全相同。實作中,資料可能會接近常態。平均數、中位數和眾數可能非常接近,但並不完全相同。
3. 對稱
常態分佈是對稱的。如果您從平均數將分佈圖形對折,兩邊會是同等大小。
4. 鐘形曲線
常態分佈呈鐘形,中央有一個「駝峰」,如上例所示。
圖 6 為非常態分佈,有兩個駝峰而不是一個。具有兩個駝峰的分佈可能表明資料中有不同組混合在一起。例如,心率通常呈常態分佈。但是,假設在您毫不知情的情況下,資料包含了兩組族群的靜止心率:運動員組和久坐族組,則可能會出現如下所示的雙峰分佈。
如資料為非常態,是不是有異常?
若資料不是「常態」,這是否意味著有異常?不,這是否意味著資料不甚理想?不,因為不同類型的資料,會呈現不同類型的分佈。
有諸多可能的理論分佈。許多統計方法都要求資料遵循常態分佈。若情況並非如此,您還可以使用其他方法。
實作中,您會發現資料通常「近乎呈常態」。有一些簡單的視覺化工具可以用來檢驗資料是否符合常態分佈,大多數統計軟體也提供了檢驗常態性的統計方法。
有哪些資料範例未呈常態分佈?
- 六面骰子的單次投擲
- 擲硬幣
- 製造中的良率檢查
- 排隊等候時間
- 電池或其他電子產品的故障時間
- 網路上發布之影片的檔案大小
儘管以上範例並非常態分佈,但這些類型的資料也有分析方法。
檢查常態性的視覺工具
使用直方圖
如上所述,直方圖是特殊類型的頻率長條圖,用於連續變數。此圖表可以幫助您查看資料是否呈現一般鐘形曲線。使用某些軟體套件,您還可以為直方圖新增常態曲線,以直覺地比較資料。
圖 7 為非常態分佈資料的直方圖範例。
查看直方圖以進行常態性目視檢查時,請查看圖表是否:
- 有沒有極端值。
- 呈現兩側幾乎相同的對稱曲線。
- 是否呈鐘形。
如您所見,圖 7 具有極端值,不對稱且不呈鍾形。
使用箱形圖
常態分佈的箱形圖顯示平均數與中位數相同,同時還表明資料不存在極端值。資料呈對稱分佈。
看看下方圖 8 和圖 9 中的兩個箱形圖。圖 8 中的資料趨近於常態分佈。圖 9 中的資料遵循非常態分佈。
查看箱形圖以進行常態性目視檢查時,請查看該圖是否顯示:
- 有沒有極端值。圖 9 中的非常態分佈圖將三個離群值顯示為紅點。圖 8 中的近常態分佈圖顯示沒有離群值。
- 是否對稱。近常態分佈圖(圖 8)具有對稱性,而非常態分佈圖(圖 9)則不具有對稱性。
- 平均數和中位數幾乎相等。在這些箱形圖中,箱框中的水平黑色中心線是中位數,藍線是平均數。對於圖 8 的近常態分佈,平均數的藍線與箱框中間的中位數線幾乎趨同。
使用常態分位圖
常態分位圖將常態分佈顯示為直線而非鐘形曲線。如果資料正常,則資料值將接近直線。若資料不正常,則資料值將偏離直線。圖上的資料模式可以幫助您瞭解為什麼資料不呈常態分佈。
圖 10 顯示常態分佈資料的常態分位數圖。您會發現大多數資料值如何落在紅實線附近。資料值也都落在紅虛線置信度範圍內。
圖 11 顯示的資料不呈常態分佈。某些資料值靠近紅實線,但大多數不是。某些資料值超出了紅虛線置信度範圍。右上角也有一些極端值。
大多數統計軟體都會建立常態分位數圖。查看常態分位數圖以判斷常態性時,請看看資料是否:
- 有沒有極端值。
- 主要沿著顯示常態分佈的線。
- 大多數情況下都在信賴區間範圍內。
常態分佈之用途
連續資料:是
常態分佈適用於連續資料,因為這些資料的測量尺度使用許多可能值。部分連續資料範例如下:
- 年齡
- 血壓
- 體重
- 溫度
- 速度
對於所有這些範例,考慮使用假設資料遵循常態分佈的方法可能較合理。但是,不要忘了,並非所有連續資料都遵循常態分佈。繪製資料,並在套用假定常態性的方法之前考慮資料代表的內容。
排序或名目資料:否
常態分佈不適用於原始排序或原始名目資料,因為這些資料的測量尺度只使用少數可能值。
排序資料的樣本會分成群組,且回應通常有既定排序。例如,在要求您以「非常不同意」到「非常同意」的尺度提供意見的調查中,您的回應即為排序資料。
名目資料的樣本也會分成組,但沒有特定排序。兩個範例分別為生物性別和居住國家。您可以在樣本中使用 M 代表男性,F 代表女性,也可以使用 0 和 1。對於國家/地區,您可以使用國家/地區縮寫,或者使用數字編碼國家/地區名稱。即使您對這些資料使用數字,使用常態分佈也沒有意義。
其他主題
常態檢定
大多數統計軟體套件都包含常態性的形式測試。這些測試假定資料遵循常態分佈;然後,測試作業使用資料來檢查此假設是否合理。
使用 t 分佈
常態分佈是理論上的分佈。它完全由母體平均數和母體標準差定義。
實作中,我們幾乎從不可能知道這兩個統計資料的母體值。
t 分佈與常態分佈非常相似。它使用樣本平均數和樣本標準差。由於它使用這些估計值,因此還需要一個參數才能完全對其進行定義。
另一參數是自由度,即樣本數量減去 1。如果 n 是樣本數量,則自由度顯示為 n-1。記住這一點的簡單方法是,t 分佈在自由度中具有「校正因子」。此校正因子有助於說明分佈基於樣本平均數和樣本標準差,而不是未知母體值的事實。