平均數、中位數和眾數

Style

section-padding-none

平均數是什麼？

平均數測量一組資料值的集中趨勢。對於連續資料，平均數是資料值的平均值。

如何使用平均數？

資料值樣本的平均數用於估計真實的未知母體平均數。平均數通常用作一組資料的簡單匯總統計量。它與標準差結合使用，用於計算統計區間、假設檢驗統計量和控制圖限。

關於平均數，您可以試想哪些問題？

平均數會受到極端值影響。當有極端值或偏態分佈時，平均數可以更好地衡量集中趨勢。在使用平均數之前，請檢查資料中的極端值，並查看圖表以核驗資料是否大致對稱。

中位數是什麼？

中位數是樣本資料的第 50 個百分位數。換句話說，50% 的資料值高於中位數，50% 低於中位數。中位數是樣本中資料集中趨勢的另一個估計值。

眾數是什麼？

眾數是資料中最常出現的數值。不包含重複值的資料集沒有眾數。具有多個值以相同頻率重複的資料集可以具有多個眾數。眾數是另一個用於估計資料集中趨勢的統計資料。

平均數體現了資料集的集中趨勢

假設您有一組資料值並繪製其圖表，如圖 1 所示。水平座標軸顯示資料值。垂直座標軸顯示具有特定資料值的點的數量。從統計學的角度而言，這是資料值的 直方圖 或分佈。平均數估計資料的集中趨勢。

圖 1：資料值直方圖

母體平均數是什麼？

母體平均數是理論母體的集中趨勢，通常未知。

讓我們看一個您瞭解母體的範例。假設您想瞭解自 1950 年以來大西洋颶風登陸時的平均風速。這是一個相對較小的母體。自 1950 年以來登陸的所有大西洋颶風都有資料可循。您可以輕鬆計算母體平均數。

但在許多情況下，您並不會知道真正的母體平均數，原因在於未掌握關於整個母體的資料。

母體平均數在公式中用希臘字母表示「小 m」或「mu」。其符號為 μ。

樣本平均數是什麼？

要估計未知母體平均數，須收集資料樣本，然後計算該樣本的平均數。

樣本平均數衡量樣本資料的集中趨勢。這是母體平均數的估計值。

公式中樣本平均數的統計符號為 x，其上方有一條線或橫條；它被稱為「x bar」，看起來像 x̅。

樣本平均數、算術平均數和樣本平均值之間有什麼區別？

這些是用於樣本平均數的三個術語，具有同樣的意義。

由於母體平均數通常未知，因此您會看到用於「樣本平均數」的「平均數」一詞。當您閱讀提及「平均收入」或「平均溫度」的文章時，這些文章通常是指樣本資料的平均數。

不會有 50%「高於平均值」的狀況。

許多人常犯一個錯誤，即假設 50% 的資料值高於樣本平均數，另 50% 低於樣本平均數。情況往往並非如此。這個錯誤混淆了平均數和中位數。平均數和中位數僅在某些情況下相同。

如何計算平均數

要計算平均數，請將樣本中資料值的所有數字相加，然後除以擁有的資料值數目。讓我們用一個簡單的範例來探討這個計算過程。

假設資料值為 4、5 和 6。計算平均數：

$\frac{(4+5+6)}{3} = \frac{15}{3} = 5$

通常，您會使用軟體來計算平均數。計算平均數的公式：

$\overline{x}=\frac{Σx_i}{n}$

在上面的公式中，樣本有 n 個資料值。每個資料值都用 x_i 表示。求和符號 $Σ$ 表示資料值應該相加，正如範例所示。

對於未知母體平均數，母體規模通常以大寫 N 表示。在極少數情況下，您可以計算母體平均數，公式相同但使用的是 N 而非 n。

中位數

中位數是樣本資料的第 50 個百分位數。50% 的資料值高於中位數，50% 低於中位數，這是事實。就像平均數一樣，我們有一個真正的未知母體中位數和一個樣本中位數。真正的母體中位數鮮為人知。

平均數和中位數都是用以估計資料集中趨勢的指標，通常兩者會一起報告。正如下方所示，中位數受極端資料值或不對稱資料的影響較小。

如何計算中位數

要計算中位數，首先要將樣本資料值從低到高排序，然後找到中間值。

透過幾個簡單的範例更容易理解這一點。

假設資料值又是 4、5 和 6。

首先，將值從低到高排序：4 — 5 — 6。

中間值（在此範例中為 5）是中位數。一半的資料高於中位數，另一半則低於中位數。

對於第二個範例，假設樣本中有偶數個資料值，例如 7、4、5 和 6。沒有單一的中間值。

首先，將資料值從低到高排序：4 – 5 – 6 – 7。

其次，找出兩個中間值：5 和 6。

第三，將這兩個值相加並除以 2，取平均值，結果是中位數。在我們的範例中：

$\frac{5+6}{2} = \frac{11}{2} = 5.5$

在這兩個範例中，中位數是中間值。樣本資料的一半高於中位數，另一半則低於中位數。

對於第二個範例，資料值是 4、5、5.5、6、7，因此 5.5 的中位數位於資料有序樣本值的中間。

通常，您會使用軟體來計算中位數。

眾數

眾數是另一個用於估計資料集中趨勢的統計資料。眾數是最常出現的數值。

例如，假設資料值為 3、4、4、4、5 和 6。

眾數為 4，因為它是最常見的值。

大多數統計軟體都會計算眾數。然而，在實作中，眾數的使用並不像平均數或中位數那麼頻繁。在本頁的其餘部分中，我們將重點介紹後兩個。

極端資料值如何影響樣本平均數和樣本中位數

樣本平均數可能對極端資料值敏感。稍微改變一下上方範例，假設樣本資料值現在是 4、5 和 12。

樣本平均值為：

$\frac{4+5+12}{3} = \frac{21}{3} = 7$

樣本中位數是排序資料值 4 – 5 – 12 中的中間值，即 5。

將其與之前的範例進行比較。資料值 4、5 和 6 的平均數和中位數為 5。透過將單一資料值從 6 更改為 12，中位數沒有變化，但平均數從 5 變為 7。

對於較大的資料集，單一極限資料值對樣本平均數的影響較大，但對樣本中位數的影響較小。我們說中位數對離群值或極端資料值具有穩健性。

下方分佈顯示了排除離群值的資料集（圖 2），然後是包含離群值的資料集（圖 3）。

圖 2：無離群值的資料集分佈

圖 3：有離群值的資料集分佈

兩組資料的中位數均為 44.6。無離群值的資料的平均數為 45.3，有離群值的資料的平均數為 45.6。兩個直方圖的座標軸尺度都位於 20 至 90 之間。

謹慎處理！不要僅僅因為存在極端資料值而將其刪除。您應該嘗試查明極端資料值是錯誤還是異常。若是錯誤，那麼您應該嘗試更正該值。如無法將值判定為錯誤，則不應忽略極端資料值。在這種情況下，您可能會決定將分析結果報告分為，包括有問題資料點和不包括有問題資料點兩種情況。

例如，假設您收集血壓資料。樣本中一個人的收縮壓為 95。這是一個較低值，但很合理。然而，同一個人的舒張壓為 95。這極有可能是不正確的。您可能希望找到原始資料，並嘗試確認此資料點是否有誤。

資料對稱性如何影響樣本平均數和樣本中位數

當資料不對稱時，樣本平均數和樣本中位數不同。資料不對稱時，即稱其為呈偏態分佈。

考慮三種分佈：對稱分佈、左偏分佈和右偏分佈。

下方圖 4 的直方圖呈現幾乎對稱的資料。如果您從中央將圖表對折，兩邊會將近同等大小。平均數和中位數非常相似。

圖 5 的直方圖呈現非對稱資料。該資料會受到「重低值權重」影響，其呈左偏分佈。偏度統計量為負值，平均數小於中位數。

圖 6 的直方圖也呈現非對稱資料。該資料會受到「重高值權重」影響，其呈右偏分佈。偏度為正值，平均數大於中位數。

圖 4：將近對稱的資料分佈

圖 5：非對稱左偏資料

圖 6：非對稱右偏資料

何時使用平均數和中位數

圖 7-9 顯示了適合使用平均數和中位數的資料類型。

圖 7：連續資料分佈，可以計算樣本平均數和樣本中位數。

圖 8：順序型資料分佈，不應計算樣本平均數和樣本中位數。

圖 9：名目資料分佈，不應計算樣本平均數和樣本中位數。

連續資料：適用平均數和中位數

平均數和中位數對連續資料有意義。這些資料的測量尺度使用許多可能值。部分連續資料範例如下：

年齡
血壓
體重
溫度
速度

對於所有這些範例，計算平均數和中位數有意義。

排序或名目資料：不適用平均數和中位數

平均數和中位數不適用於排序或名目資料，因為這些資料類型的測量尺度只使用少數可能值。

排序資料的樣本會分成群組，且回應有既定排序。例如，在要求您以「非常不同意」到「非常同意」的尺度提供意見的調查中（圖 8），您的回應即為排序資料。

對於名目資料，樣本也會分成組，但沒有特定排序。例如：生物性別和居住國家。在極少數情況下，當名目資料使用數值編碼時，可以計算平均數。對平均數的解釋將取決於編碼方式。例如，如果使用 0 代表男性、1 代表女性對性別進行編碼，並計算樣本平均值，則可能會得到 0.6 的值。此值代表樣本中的女性比例，這很合理。對於國家/地區，如要使用數值對國家/地區名稱進行編碼，則可以計算平均數。然而，這樣做毫無意義；平均數將無任何有意義的解釋。

layout

2 column

Style

columns-75-25, section-top-padding-xsmall