平均數、中位數和眾數
平均數是什麼?
平均數測量一組資料值的集中趨勢。對於連續資料,平均數是資料值的平均值。
如何使用平均數?
資料值樣本的平均數用於估計真實的未知母體平均數。平均數通常用作一組資料的簡單匯總統計量。它與標準差結合使用,用於計算統計區間、假設檢驗統計量和控制圖限。
關於平均數,您可以試想哪些問題?
平均數會受到極端值影響。當有極端值或偏態分佈時,平均數可以更好地衡量集中趨勢。在使用平均數之前,請檢查資料中的極端值,並查看圖表以核驗資料是否大致對稱。
中位數是什麼?
中位數是樣本資料的第 50 個百分位數。換句話說,50% 的資料值高於中位數,50% 低於中位數。中位數是樣本中資料集中趨勢的另一個估計值。
眾數是什麼?
眾數是資料中最常出現的數值。不包含重複值的資料集沒有眾數。具有多個值以相同頻率重複的資料集可以具有多個眾數。眾數是另一個用於估計資料集中趨勢的統計資料。
平均數體現了資料集的集中趨勢
假設您有一組資料值並繪製其圖表,如圖 1 所示。水平座標軸顯示資料值。垂直座標軸顯示具有特定資料值的點的數量。從統計學的角度而言,這是資料值的直方圖或分佈。平均數估計資料的集中趨勢。
母體平均數是什麼?
母體平均數是理論母體的集中趨勢,通常未知。
讓我們看一個您瞭解母體的範例。假設您想瞭解自 1950 年以來大西洋颶風登陸時的平均風速。這是一個相對較小的母體。自 1950 年以來登陸的所有大西洋颶風都有資料可循。您可以輕鬆計算母體平均數。
但在許多情況下,您並不會知道真正的母體平均數,原因在於未掌握關於整個母體的資料。
母體平均數在公式中用希臘字母表示「小 m」或「mu」。其符號為 μ。
樣本平均數是什麼?
要估計未知母體平均數,須收集資料樣本,然後計算該樣本的平均數。
樣本平均數衡量樣本資料的集中趨勢。這是母體平均數的估計值。
公式中樣本平均數的統計符號為 x,其上方有一條線或橫條;它被稱為「x bar」,看起來像 x̅。
樣本平均數、算術平均數和樣本平均值之間有什麼區別?
這些是用於樣本平均數的三個術語,具有同樣的意義。
由於母體平均數通常未知,因此您會看到用於「樣本平均數」的「平均數」一詞。當您閱讀提及「平均收入」或「平均溫度」的文章時,這些文章通常是指樣本資料的平均數。
不會有 50%「高於平均值」的狀況。
許多人常犯一個錯誤,即假設 50% 的資料值高於樣本平均數,另 50% 低於樣本平均數。情況往往並非如此。這個錯誤混淆了平均數和中位數。平均數和中位數僅在某些情況下相同。
如何計算平均數
要計算平均數,請將樣本中資料值的所有數字相加,然後除以擁有的資料值數目。讓我們用一個簡單的範例來探討這個計算過程。
假設資料值為 4、5 和 6。計算平均數:
$\frac{(4+5+6)}{3} = \frac{15}{3} = 5$
通常,您會使用軟體來計算平均數。計算平均數的公式:
$\overline{x}=\frac{Σx_i}{n}$
在上面的公式中,樣本有 n 個資料值。每個資料值都用 xi 表示。求和符號 $Σ$ 表示資料值應該相加,正如範例所示。
對於未知母體平均數,母體規模通常以大寫 N 表示。在極少數情況下,您可以計算母體平均數,公式相同但使用的是 N 而非 n。
中位數
中位數是樣本資料的第 50 個百分位數。50% 的資料值高於中位數,50% 低於中位數,這是事實。就像平均數一樣,我們有一個真正的未知母體中位數和一個樣本中位數。真正的母體中位數鮮為人知。
平均數和中位數都是用以估計資料集中趨勢的指標,通常兩者會一起報告。正如下方所示,中位數受極端資料值或不對稱資料的影響較小。
如何計算中位數
要計算中位數,首先要將樣本資料值從低到高排序,然後找到中間值。
透過幾個簡單的範例更容易理解這一點。
假設資料值又是 4、5 和 6。
首先,將值從低到高排序:4 — 5 — 6。
中間值(在此範例中為 5)是中位數。一半的資料高於中位數,另一半則低於中位數。
對於第二個範例,假設樣本中有偶數個資料值,例如 7、4、5 和 6。沒有單一的中間值。
首先,將資料值從低到高排序:4 – 5 – 6 – 7。
其次,找出兩個中間值:5 和 6。
第三,將這兩個值相加並除以 2,取平均值,結果是中位數。在我們的範例中:
$\frac{5+6}{2} = \frac{11}{2} = 5.5$
在這兩個範例中,中位數是中間值。樣本資料的一半高於中位數,另一半則低於中位數。
對於第二個範例,資料值是 4、5、5.5、6、7,因此 5.5 的中位數位於資料有序樣本值的中間。
通常,您會使用軟體來計算中位數。
眾數
眾數是另一個用於估計資料集中趨勢的統計資料。眾數是最常出現的數值。
例如,假設資料值為 3、4、4、4、5 和 6。
眾數為 4,因為它是最常見的值。
大多數統計軟體都會計算眾數。然而,在實作中,眾數的使用並不像平均數或中位數那麼頻繁。在本頁的其餘部分中,我們將重點介紹後兩個。
極端資料值如何影響樣本平均數和樣本中位數
樣本平均數可能對極端資料值敏感。稍微改變一下上方範例,假設樣本資料值現在是 4、5 和 12。
樣本平均值為:
$\frac{4+5+12}{3} = \frac{21}{3} = 7$
樣本中位數是排序資料值 4 – 5 – 12 中的中間值,即 5。
將其與之前的範例進行比較。資料值 4、5 和 6 的平均數和中位數為 5。透過將單一資料值從 6 更改為 12,中位數沒有變化,但平均數從 5 變為 7。
對於較大的資料集,單一極限資料值對樣本平均數的影響較大,但對樣本中位數的影響較小。我們說中位數對離群值或極端資料值具有穩健性。
下方分佈顯示了排除離群值的資料集(圖 2),然後是包含離群值的資料集(圖 3)。
兩組資料的中位數均為 44.6。無離群值的資料的平均數為 45.3,有離群值的資料的平均數為 45.6。兩個直方圖的座標軸尺度都位於 20 至 90 之間。
謹慎處理!不要僅僅因為存在極端資料值而將其刪除。您應該嘗試查明極端資料值是錯誤還是異常。若是錯誤,那麼您應該嘗試更正該值。如無法將值判定為錯誤,則不應忽略極端資料值。在這種情況下,您可能會決定將分析結果報告分為,包括有問題資料點和不包括有問題資料點兩種情況。
例如,假設您收集血壓資料。樣本中一個人的收縮壓為 95。這是一個較低值,但很合理。然而,同一個人的舒張壓為 95。這極有可能是不正確的。您可能希望找到原始資料,並嘗試確認此資料點是否有誤。
資料對稱性如何影響樣本平均數和樣本中位數
當資料不對稱時,樣本平均數和樣本中位數不同。資料不對稱時,即稱其為呈偏態分佈。
考慮三種分佈:對稱分佈、左偏分佈和右偏分佈。
下方圖 4 的直方圖呈現幾乎對稱的資料。如果您從中央將圖表對折,兩邊會將近同等大小。平均數和中位數非常相似。
圖 5 的直方圖呈現非對稱資料。該資料會受到「重低值權重」影響,其呈左偏分佈。偏度統計量為負值,平均數小於中位數。
圖 6 的直方圖也呈現非對稱資料。該資料會受到「重高值權重」影響,其呈右偏分佈。偏度為正值,平均數大於中位數。
何時使用平均數和中位數
圖 7-9 顯示了適合使用平均數和中位數的資料類型。
連續資料:適用平均數和中位數
平均數和中位數對連續資料有意義。這些資料的測量尺度使用許多可能值。部分連續資料範例如下:
- 年齡
- 血壓
- 體重
- 溫度
- 速度
對於所有這些範例,計算平均數和中位數有意義。
排序或名目資料:不適用平均數和中位數
平均數和中位數不適用於排序或名目資料,因為這些資料類型的測量尺度只使用少數可能值。
排序資料的樣本會分成群組,且回應有既定排序。例如,在要求您以「非常不同意」到「非常同意」的尺度提供意見的調查中(圖 8),您的回應即為排序資料。
對於名目資料,樣本也會分成組,但沒有特定排序。例如:生物性別和居住國家。在極少數情況下,當名目資料使用數值編碼時,可以計算平均數。對平均數的解釋將取決於編碼方式。例如,如果使用 0 代表男性、1 代表女性對性別進行編碼,並計算樣本平均值,則可能會得到 0.6 的值。此值代表樣本中的女性比例,這很合理。對於國家/地區,如要使用數值對國家/地區名稱進行編碼,則可以計算平均數。然而,這樣做毫無意義;平均數將無任何有意義的解釋。