標準差
標準差是什麼?
標準差衡量一組資料值的分佈。高標準偏差表示資料值分佈範圍較廣,而低標準差表示資料值圍繞資料集的平均數集中分佈範圍較窄。
如何使用標準差?
標準差用於調查一組資料值的變異性。它與平均數結合使用,用於計算統計區間、假設檢驗統計量和控制圖限。
關於標準差,您可能會試想以下問題:
標準差會受到極端值和/或小資料集的影響。請務必考慮離群值如何影響分析。此外,標準差僅與連續資料相關。
標準差描述資料集的分佈。
假設您有一組資料值並繪製其圖表,如下圖所示。水平座標軸顯示資料值。垂直座標軸顯示每個資料值的頻率。從統計學的角度而言,這是資料值的直方圖或分佈。標準差是估計資料分佈或寬度的單個數。
母體標準差是什麼?
在統計學中,母體是指您試圖瞭解和得出一些結論的整個資料集。在許多情況下,由於母體規模龐大,不可能收集母體中每個元素的資料。在這些情況下,母體標準差衡量的是理論母體分佈,並且幾乎總是未知的。
讓我們看一個您確實瞭解母體的範例。假設您想瞭解自 1950 年以來大西洋颶風登陸時風速的分佈。這是一個相對較小的母體。由於自 1950 年以來登陸的所有大西洋颶風的資料都很容易獲得,因此您可以計算母體標準差。
樣本標準差是什麼?
要估計未知母體標準差,需要收集資料樣本。然後計算該樣本的標準差。樣本標準差衡量樣本中資料的分佈。這是母體標準差的估計值。
標準差和變異數有什麼區別?
標準差是變異數的平方根。標準差和變異數都是分佈的衡量標準。標準差與資料使用相同的單位。例如,如果以年為單位衡量年齡,則標準差也以年為單位,這是人們使用標準差而不是變異數的原因之一。「以年為單位的年齡」比「以年為單位的年齡平方」更容易理解。
標準差和變異係數 (CV) 有什麼區別?
變異係數 (CV) 等於標準差除以平均數。CV 用於在通用尺度上比較資料集的標準差。CV 用作測量系統精度指標。
標準差的值可能是多少?
標準差幾乎總是正值,但有一個例外:如果資料集中的所有值都相同,則標準差為零。資料不存在變異性或分佈。
如何計算標準差
若要計算樣本標準差,須先計算樣本平均數。然後,對於每個資料值,找出該值與樣本平均數之間的差異。接下來,對這些差異進行平方及求和。最後,將該總和除以資料值的數量減去 1,得到樣本變異數。要獲得標準差,須取平方根。標準差與資料使用相同的單位。
讓我們用一個簡單的範例來探討這個計算過程。假設您測量了六個人的靜止心率。大多數人的靜止心率在 60 到 100 次/分鐘 (BPM) 之間。運動員的健康靜止心率可低至 40。心率高可能是健康問題,或者僅僅是運動期間測量心率的結果。
假設資料值為:
55 |
60 |
65 |
75 |
80 |
85 |
首先,將資料值相加並除以值的數量來計算樣本平均數:
$\frac{(55+60+65+75+80+85)}{6} = \frac{420}{6} = 70$
接下來,計算每個資料值與樣本平均數之間的差值:
與平均數的差值 |
---|
55-70 = -15 |
60-70 = -10 |
65-70 = -5 |
75-70 = 5 |
80-70 = 10 |
85-70 = 15 |
藉由計算差值,您可以瞭解每個資料值與樣本平均數的距離。
接下來,對差值進行平方。若只是將差值相加,則得到零,表明資料無分佈。情況並非如此。將差值進行平方後相加,可以得到一個正度量,用來衡量資料點在樣本平均數上方和下方的距離。
與平均數的差值 | 平方差 |
---|---|
55-70 = -15 | 225 |
60-70 = -10 | 100 |
65-70 = -5 | 25 |
75-70 = 5 | 25 |
80-70 = 10 | 100 |
85-70 = 15 | 225 |
接下來,計算所有差值的平方數,並相加:
$225+100+25+25+100+225=700$
由於有六個資料值,因此將上面的總和除以 6 – 1 = 5:
$\frac{700}{5} = 140$
為什麼不除以 6?原因很簡單,這些計算結果中使用了樣本平均數。若知道樣本平均數和五個資料值,則可以計算第六個資料點。此範例在計算平均數時使用所謂的單自由度。從統計角度而言,除以 n-1 時,可以獲得變異數的無偏估計值。
此時,您已經確定了樣本變異數。這個數值的單位是「每分鐘心跳數」,這種單位很難解釋。所以,最後一步是取平方根,得到樣本標準差:
$\sqrt{140}=11.8$
基於 6 個人的樣本,樣本平均數為 70 BPM,樣本標準差為 11.8 BPM,很合理。
通常,您會使用軟體來計算樣本標準差。樣本標準差計算公式為:
$\sqrt{\frac{Σ^n_{i=1}(x_i - \overline{x})^2}{n-1}}$
在上面的公式中,樣本有 n 個資料值。每個資料值都用 x 表示。符號 x̅ 表示樣本平均數。Σ 符號為求和符號;在此公式中,這意味著應將資料值與樣本平均數之間的每個平方差相加,正如範例所示。
母體標準差
在極少數情況下,您擁有整個母體的資料,標準差的計算與母體樣本的計算略有不同。對於整個母體,母體規模用大寫 N 表示。公式為:
$\sqrt{\frac{Σ^N_{i=1}(x_i - μ)^2}{N}}$
上面的公式使用母體規模 (N) 和母體平均數 (μ)。這個公式的思維與計算樣本標準差的思維相同。
瞭解何謂標準差
視覺化標準差
下圖 3 說明標準差如何估計資料值的分佈。中心線顯示上例中六個心率資料值的樣本平均數 (70)。對於其中兩個值(65 和 80),該圖突出顯示了與平均數差值的計算。
您會發現,當資料值低於平均數時,差值為負;當資料值高於平均數時,差值為正。透過對差值進行平方,正差值和負差值不會相互抵消。
將所有差值的平方數相加,可以得到每個資料值與平均數之間的總體分佈。總和越小,表示資料值的分佈越小;總和越大,意味著資料值的分佈越大。
解釋標準差
大多數情況下,您會同時報告平均數和標準差。這有助於將標準差放在背景中進行理解。
標準差越小,表示資料值越接近樣本平均數。標準差越大,表示資料值分佈越廣,某些值離樣本平均數越遠。
例如,在下圖 4 中,假設資料的樣本平均數為 13。當樣本標準差為 3(用橙色實線表示)時,會有更多的資料接近樣本平均數。當樣本標準差為 6(用藍色虛線表示)時,資料更加分散。有些值與樣本平均數相差較遠。
極端資料值如何影響樣本標準差?
極端資料值會對樣本標準差產生重大影響。讓我們繼續以心率為例。
在前一個例子,心率資料值為:
55 |
60 |
65 |
75 |
80 |
85 |
我們發現樣本平均數為 70 BPM,樣本標準差為 11.8 BPM。
假設現在有了另外一個人的心率:
55 |
60 |
65 |
75 |
80 |
85 |
140 |
我們不會再重新計算一次,但現在樣本平均數為 80 BPM,樣本標準差為 28.6 BPM。這個單一的極端值對樣本平均數和樣本標準差都有顯著影響。
謹慎處理!不要僅僅因為看起來不正確而刪除極端資料值。首先嘗試找出極端資料值是否是由於某種錯誤造成。若由錯誤引致,則應嘗試找到正確的值。如果無法確定是否發生了錯誤,則不應省略極端資料值。在這種情況下,您可能會決定將分析結果報告分為,包括有問題資料點和不包括有問題資料點兩種情況。
對於心率資料,極端值可能是一個人的真實靜止心率。在這種情況下,您希望將其保留在資料中。極端值也有可能是某人在運動後立即產生的心率,這與測量靜止心率的其他資料值不同。關鍵是,在決定如何處理極端資料值之前,您需要進一步調查。
使用統計符號
母體標準差和變異數
母體標準差在公式中用希臘字母「sigma」顯示。符號為 σ。
母體變異數顯示為 σ 2。
許多統計公式在定義假設檢驗或分析公式時使用 σ。
請記住,幾乎在所有情況下,您都不會知道母體標準差或母體變異數。
樣本標準差和變異數
樣本標準差在公式中用斜體小寫 s 表示。
樣本變異數在公式中顯示為 s2。
何時使用標準差
連續資料:是
標準差對連續資料而言有意義。這種資料的測量尺度使用許多可能值。部分連續資料範例如下:
- 年齡
- 血壓
- 體重
- 溫度
- 速度。
對於所有這些範例,計算標準差有意義。
排序或名目資料:否
根據此處的定義,標準差對於排序或名目資料沒有意義。這種資料的測量尺度僅使用幾個可能值。還有其他統計資料可以估計一組排序或名目資料值的分佈。
排序資料通常會分成有特定排序的組。例如,假設您進行了一項調查,其中要求您以「非常不同意」到「非常同意」的尺度提供意見。您的回應是排序型,參見下方圖 6。
名目資料也會將樣本分成組,但無特定排序。兩個範例分別為生物性別和居住國家(圖 7)。您可以在樣本中使用 M 代表男性,F 代表女性,也可以使用 0 和 1。對於國家/地區,您可以使用國家/地區縮寫,或者使用數字編碼國家/地區名稱。若對這種資料使用數字,則可以計算樣本標準差,但這沒有任何意義。
其他衡量變異性的方法
標準差是估計資料分佈的一種方法。範圍和四分位距 (IQR) 也估計分佈。與標準差不同,這些統計資料都不涉及資料中心。這些統計資料可用於小型資料集(範圍)或偏資料集 (IQR)。
範圍
範圍是資料中最低值和最高值之間的差值。
四分位距 (IQR)
四分位距是資料中二十五分位數和七十五分位數之間的差距。因此,與範圍或標準差相比,IQR 受極端值的影響較小。若資料具有極端值或存在偏斜,那麼 IQR 可能是描述資料集中變異性的不錯選擇。