標準差

標準差是什麼?

標準差衡量一組資料值的分佈。高標準偏差表示資料值分佈範圍較廣,而低標準差表示資料值圍繞資料集的平均數集中分佈範圍較窄。

如何使用標準差?

標準差用於調查一組資料值的變異性。它與平均數結合使用,用於計算統計區間、假設檢驗統計量和控制圖限。

關於標準差,您可能會試想以下問題:

標準差會受到極端值和/或小資料集的影響。請務必考慮離群值如何影響分析。此外,標準差僅與連續資料相關。

標準差描述資料集的分佈。

假設您有一組資料值並繪製其圖表,如下圖所示。水平座標軸顯示資料值。垂直座標軸顯示每個資料值的頻率。從統計學的角度而言,這是資料值的直方圖或分佈。標準差是估計資料分佈或寬度的單個數。

圖 1:廣泛分佈資料值的直方圖
圖 2:分佈較窄資料值的直方圖

母體標準差是什麼?

在統計學中,母體是指您試圖瞭解和得出一些結論的整個資料集。在許多情況下,由於母體規模龐大,不可能收集母體中每個元素的資料。在這些情況下,母體標準差衡量的是理論母體分佈,並且幾乎總是未知的。

讓我們看一個您確實瞭解母體的範例。假設您想瞭解自 1950 年以來大西洋颶風登陸時風速的分佈。這是一個相對較小的母體。由於自 1950 年以來登陸的所有大西洋颶風的資料都很容易獲得,因此您可以計算母體標準差。

樣本標準差是什麼?

要估計未知母體標準差,需要收集資料樣本。然後計算該樣本的標準差。樣本標準差衡量樣本中資料的分佈。這是母體標準差的估計值。

標準差和變異數有什麼區別?

標準差是變異數的平方根。標準差和變異數都是分佈的衡量標準。標準差與資料使用相同的單位。例如,如果以年為單位衡量年齡,則標準差也以年為單位,這是人們使用標準差而不是變異數的原因之一。「以年為單位的年齡」比「以年為單位的年齡平方」更容易理解。

標準差和變異係數 (CV) 有什麼區別?

變異係數 (CV) 等於標準差除以平均數。CV 用於在通用尺度上比較資料集的標準差。CV 用作測量系統精度指標。

標準差的值可能是多少?

標準差幾乎總是正值,但有一個例外:如果資料集中的所有值都相同,則標準差為零。資料不存在變異性或分佈。

如何計算標準差

若要計算樣本標準差,須先計算樣本平均數。然後,對於每個資料值,找出該值與樣本平均數之間的差異。接下來,對這些差異進行平方及求和。最後,將該總和除以資料值的數量減去 1,得到樣本變異數。要獲得標準差,須取平方根。標準差與資料使用相同的單位。

讓我們用一個簡單的範例來探討這個計算過程。假設您測量了六個人的靜止心率。大多數人的靜止心率在 60 到 100 次/分鐘 (BPM) 之間。運動員的健康靜止心率可低至 40。心率高可能是健康問題,或者僅僅是運動期間測量心率的結果。

假設資料值為:

55
60
65
75
80
85

首先,將資料值相加並除以值的數量來計算樣本平均數:

$\frac{(55+60+65+75+80+85)}{6} = \frac{420}{6} = 70$

接下來,計算每個資料值與樣本平均數之間的差值:

與平均數的差值
55-70 = -15
60-70 = -10
65-70 = -5
75-70 = 5
80-70 = 10
85-70 = 15

藉由計算差值,您可以瞭解每個資料值與樣本平均數的距離。

接下來,對差值進行平方。若只是將差值相加,則得到零,表明資料無分佈。情況並非如此。將差值進行平方後相加,可以得到一個正度量,用來衡量資料點在樣本平均數上方和下方的距離。

與平均數的差值平方差
55-70 = -15225
60-70 = -10100
65-70 = -525
75-70 = 525
80-70 = 10100
85-70 = 15225

接下來,計算所有差值的平方數,並相加:

$225+100+25+25+100+225=700$

由於有六個資料值,因此將上面的總和除以 6 – 1 = 5:

$\frac{700}{5} = 140$

為什麼不除以 6?原因很簡單,這些計算結果中使用了樣本平均數。若知道樣本平均數和五個資料值,則可以計算第六個資料點。此範例在計算平均數時使用所謂的單自由度。從統計角度而言,除以 n-1 時,可以獲得變異數的無偏估計值。

此時,您已經確定了樣本變異數。這個數值的單位是「每分鐘心跳數」,這種單位很難解釋。所以,最後一步是取平方根,得到樣本標準差:

$\sqrt{140}=11.8$

基於 6 個人的樣本,樣本平均數為 70 BPM,樣本標準差為 11.8 BPM,很合理。

通常,您會使用軟體來計算樣本標準差。樣本標準差計算公式為:

$\sqrt{\frac{Σ^n_{i=1}(x_i - \overline{x})^2}{n-1}}$

在上面的公式中,樣本有 n 個資料值。每個資料值都用 x 表示。符號 x̅ 表示樣本平均數。Σ 符號為求和符號;在此公式中,這意味著應將資料值與樣本平均數之間的每個平方差相加,正如範例所示。

母體標準差

在極少數情況下,您擁有整個母體的資料,標準差的計算與母體樣本的計算略有不同。對於整個母體,母體規模用大寫 N 表示。公式為:

$\sqrt{\frac{Σ^N_{i=1}(x_i - μ)^2}{N}}$

上面的公式使用母體規模 (N) 和母體平均數 (μ)。這個公式的思維與計算樣本標準差的思維相同。

瞭解何謂標準差

視覺化標準差

下圖 3 說明標準差如何估計資料值的分佈。中心線顯示上例中六個心率資料值的樣本平均數 (70)。對於其中兩個值(65 和 80),該圖突出顯示了與平均數差值的計算。

您會發現,當資料值低於平均數時,差值為負;當資料值高於平均數時,差值為正。透過對差值進行平方,正差值和負差值不會相互抵消。

將所有差值的平方數相加,可以得到每個資料值與平均數之間的總體分佈。總和越小,表示資料值的分佈越小;總和越大,意味著資料值的分佈越大。

圖 3:兩個資料點樣本平均數的差值

解釋標準差

大多數情況下,您會同時報告平均數和標準差。這有助於將標準差放在背景中進行理解。

標準差越小,表示資料值越接近樣本平均數。標準差越大,表示資料值分佈越廣,某些值離樣本平均數越遠。

例如,在下圖 4 中,假設資料的樣本平均數為 13。當樣本標準差為 3(用橙色實線表示)時,會有更多的資料接近樣本平均數。當樣本標準差為 6(用藍色虛線表示)時,資料更加分散。有些值與樣本平均數相差較遠。

圖 4:相較於較小標準差,標準差較大意味著資料相對於平均數的分散程度較大。

極端資料值如何影響樣本標準差?

極端資料值會對樣本標準差產生重大影響。讓我們繼續以心率為例。

在前一個例子,心率資料值為:

55
60
65
75
80
85

我們發現樣本平均數為 70 BPM,樣本標準差為 11.8 BPM。

假設現在有了另外一個人的心率:

55
60
65
75
80
85
140

我們不會再重新計算一次,但現在樣本平均數為 80 BPM,樣本標準差為 28.6 BPM。這個單一的極端值對樣本平均數和樣本標準差都有顯著影響。

謹慎處理!不要僅僅因為看起來不正確而刪除極端資料值。首先嘗試找出極端資料值是否是由於某種錯誤造成。若由錯誤引致,則應嘗試找到正確的值。如果無法確定是否發生了錯誤,則不應省略極端資料值。在這種情況下,您可能會決定將分析結果報告分為,包括有問題資料點和不包括有問題資料點兩種情況。

對於心率資料,極端值可能是一個人的真實靜止心率。在這種情況下,您希望將其保留在資料中。極端值也有可能是某人在運動後立即產生的心率,這與測量靜止心率的其他資料值不同。關鍵是,在決定如何處理極端資料值之前,您需要進一步調查。

使用統計符號

母體標準差和變異數

母體標準差在公式中用希臘字母「sigma」顯示。符號為 σ。

母體變異數顯示為 σ 2

許多統計公式在定義假設檢驗或分析公式時使用 σ。

請記住,幾乎在所有情況下,您都不會知道母體標準差或母體變異數。

樣本標準差和變異數

樣本標準差在公式中用斜體小寫 s 表示。

樣本變異數在公式中顯示為 s2

何時使用標準差

連續資料:是

標準差對連續資料而言有意義。這種資料的測量尺度使用許多可能值。部分連續資料範例如下:

  • 年齡
  • 血壓
  • 體重
  • 溫度
  • 速度。

對於所有這些範例,計算標準差有意義。

圖 5:對連續資料使用標準差。

排序或名目資料:否

根據此處的定義,標準差對於排序或名目資料沒有意義。這種資料的測量尺度僅使用幾個可能值。還有其他統計資料可以估計一組排序或名目資料值的分佈。

排序資料通常會分成有特定排序的組。例如,假設您進行了一項調查,其中要求您以「非常不同意」到「非常同意」的尺度提供意見。您的回應是排序型,參見下方圖 6。

名目資料也會將樣本分成組,但無特定排序。兩個範例分別為生物性別和居住國家(圖 7)。您可以在樣本中使用 M 代表男性,F 代表女性,也可以使用 0 和 1。對於國家/地區,您可以使用國家/地區縮寫,或者使用數字編碼國家/地區名稱。若對這種資料使用數字,則可以計算樣本標準差,但這沒有任何意義。

圖 6:不要將標準差用於排序資料。
圖 7:不要將標準差用於名目資料。

其他衡量變異性的方法

標準差是估計資料分佈的一種方法。範圍和四分位距 (IQR) 也估計分佈。與標準差不同,這些統計資料都不涉及資料中心。這些統計資料可用於小型資料集(範圍)或偏資料集 (IQR)。

範圍

範圍是資料中最低值和最高值之間的差值。

四分位距 (IQR)

四分位距是資料中二十五分位數和七十五分位數之間的差距。因此,與範圍或標準差相比,IQR 受極端值的影響較小。若資料具有極端值或存在偏斜,那麼 IQR 可能是描述資料集中變異性的不錯選擇。