標準差

Style

section-padding-none

標準差是什麼？

標準差衡量一組資料值的分佈。高標準偏差表示資料值分佈範圍較廣，而低標準差表示資料值圍繞資料集的平均數集中分佈範圍較窄。

如何使用標準差？

標準差用於調查一組資料值的變異性。它與平均數結合使用，用於計算統計區間、假設檢驗統計量和控制圖限。

關於標準差，您可能會試想以下問題：

標準差會受到極端值和/或小資料集的影響。請務必考慮離群值如何影響分析。此外，標準差僅與連續資料相關。

標準差描述資料集的分佈。

假設您有一組資料值並繪製其圖表，如下圖所示。水平座標軸顯示資料值。垂直座標軸顯示每個資料值的頻率。從統計學的角度而言，這是資料值的直方圖或分佈。標準差是估計資料分佈或寬度的單個數。

圖 1：廣泛分佈資料值的直方圖

圖 2：分佈較窄資料值的直方圖

母體標準差是什麼？

在統計學中，母體是指您試圖瞭解和得出一些結論的整個資料集。在許多情況下，由於母體規模龐大，不可能收集母體中每個元素的資料。在這些情況下，母體標準差衡量的是理論母體分佈，並且幾乎總是未知的。

讓我們看一個您確實瞭解母體的範例。假設您想瞭解自 1950 年以來大西洋颶風登陸時風速的分佈。這是一個相對較小的母體。由於自 1950 年以來登陸的所有大西洋颶風的資料都很容易獲得，因此您可以計算母體標準差。

樣本標準差是什麼？

要估計未知母體標準差，需要收集資料樣本。然後計算該樣本的標準差。樣本標準差衡量樣本中資料的分佈。這是母體標準差的估計值。

標準差和變異數有什麼區別？

標準差是變異數的平方根。標準差和變異數都是分佈的衡量標準。標準差與資料使用相同的單位。例如，如果以年為單位衡量年齡，則標準差也以年為單位，這是人們使用標準差而不是變異數的原因之一。「以年為單位的年齡」比「以年為單位的年齡平方」更容易理解。

標準差和變異係數 (CV) 有什麼區別？

變異係數 (CV) 等於標準差除以平均數。CV 用於在通用尺度上比較資料集的標準差。CV 用作測量系統精度指標。

標準差的值可能是多少？

標準差幾乎總是正值，但有一個例外：如果資料集中的所有值都相同，則標準差為零。資料不存在變異性或分佈。

如何計算標準差

若要計算樣本標準差，須先計算樣本平均數。然後，對於每個資料值，找出該值與樣本平均數之間的差異。接下來，對這些差異進行平方及求和。最後，將該總和除以資料值的數量減去 1，得到樣本變異數。要獲得標準差，須取平方根。標準差與資料使用相同的單位。

讓我們用一個簡單的範例來探討這個計算過程。假設您測量了六個人的靜止心率。大多數人的靜止心率在 60 到 100 次/分鐘 (BPM) 之間。運動員的健康靜止心率可低至 40。心率高可能是健康問題，或者僅僅是運動期間測量心率的結果。

假設資料值為：

首先，將資料值相加並除以值的數量來計算樣本平均數：

$\frac{(55+60+65+75+80+85)}{6} = \frac{420}{6} = 70$

接下來，計算每個資料值與樣本平均數之間的差值：

與平均數的差值

55-70 = -15

60-70 = -10

65-70 = -5

75-70 = 5

80-70 = 10

85-70 = 15

藉由計算差值，您可以瞭解每個資料值與樣本平均數的距離。

接下來，對差值進行平方。若只是將差值相加，則得到零，表明資料無分佈。情況並非如此。將差值進行平方後相加，可以得到一個正度量，用來衡量資料點在樣本平均數上方和下方的距離。

與平均數的差值

平方差

55-70 = -15

225

60-70 = -10

100

65-70 = -5

75-70 = 5

80-70 = 10

100

85-70 = 15

225

接下來，計算所有差值的平方數，並相加：

$225+100+25+25+100+225=700$

由於有六個資料值，因此將上面的總和除以 6 – 1 = 5：

$\frac{700}{5} = 140$

為什麼不除以 6？原因很簡單，這些計算結果中使用了樣本平均數。若知道樣本平均數和五個資料值，則可以計算第六個資料點。此範例在計算平均數時使用所謂的單自由度。從統計角度而言，除以 n-1 時，可以獲得變異數的無偏估計值。

此時，您已經確定了樣本變異數。這個數值的單位是「每分鐘心跳數」，這種單位很難解釋。所以，最後一步是取平方根，得到樣本標準差：

$\sqrt{140}=11.8$

基於 6 個人的樣本，樣本平均數為 70 BPM，樣本標準差為 11.8 BPM，很合理。

通常，您會使用軟體來計算樣本標準差。樣本標準差計算公式為：

$\sqrt{\frac{Σ^n_{i=1}(x_i - \overline{x})^2}{n-1}}$

在上面的公式中，樣本有 n 個資料值。每個資料值都用 x 表示。符號 x̅ 表示樣本平均數。Σ 符號為求和符號；在此公式中，這意味著應將資料值與樣本平均數之間的每個平方差相加，正如範例所示。

母體標準差

在極少數情況下，您擁有整個母體的資料，標準差的計算與母體樣本的計算略有不同。對於整個母體，母體規模用大寫 N 表示。公式為：

$\sqrt{\frac{Σ^N_{i=1}(x_i - μ)^2}{N}}$

上面的公式使用母體規模 (N) 和母體平均數 (μ)。這個公式的思維與計算樣本標準差的思維相同。

瞭解何謂標準差

視覺化標準差

下圖 3 說明標準差如何估計資料值的分佈。中心線顯示上例中六個心率資料值的樣本平均數 (70)。對於其中兩個值（65 和 80），該圖突出顯示了與平均數差值的計算。

您會發現，當資料值低於平均數時，差值為負；當資料值高於平均數時，差值為正。透過對差值進行平方，正差值和負差值不會相互抵消。

將所有差值的平方數相加，可以得到每個資料值與平均數之間的總體分佈。總和越小，表示資料值的分佈越小；總和越大，意味著資料值的分佈越大。

圖 3：兩個資料點樣本平均數的差值

解釋標準差

大多數情況下，您會同時報告平均數和標準差。這有助於將標準差放在背景中進行理解。

標準差越小，表示資料值越接近樣本平均數。標準差越大，表示資料值分佈越廣，某些值離樣本平均數越遠。

例如，在下圖 4 中，假設資料的樣本平均數為 13。當樣本標準差為 3（用橙色實線表示）時，會有更多的資料接近樣本平均數。當樣本標準差為 6（用藍色虛線表示）時，資料更加分散。有些值與樣本平均數相差較遠。

圖 4：相較於較小標準差，標準差較大意味著資料相對於平均數的分散程度較大。

極端資料值如何影響樣本標準差？

極端資料值會對樣本標準差產生重大影響。讓我們繼續以心率為例。

在前一個例子，心率資料值為：

我們發現樣本平均數為 70 BPM，樣本標準差為 11.8 BPM。

假設現在有了另外一個人的心率：

140

我們不會再重新計算一次，但現在樣本平均數為 80 BPM，樣本標準差為 28.6 BPM。這個單一的極端值對樣本平均數和樣本標準差都有顯著影響。

謹慎處理！不要僅僅因為看起來不正確而刪除極端資料值。首先嘗試找出極端資料值是否是由於某種錯誤造成。若由錯誤引致，則應嘗試找到正確的值。如果無法確定是否發生了錯誤，則不應省略極端資料值。在這種情況下，您可能會決定將分析結果報告分為，包括有問題資料點和不包括有問題資料點兩種情況。

對於心率資料，極端值可能是一個人的真實靜止心率。在這種情況下，您希望將其保留在資料中。極端值也有可能是某人在運動後立即產生的心率，這與測量靜止心率的其他資料值不同。關鍵是，在決定如何處理極端資料值之前，您需要進一步調查。

使用統計符號

母體標準差和變異數

母體標準差在公式中用希臘字母「sigma」顯示。符號為 σ。

母體變異數顯示為 σ ²。

許多統計公式在定義假設檢驗或分析公式時使用 σ。

請記住，幾乎在所有情況下，您都不會知道母體標準差或母體變異數。

樣本標準差和變異數

樣本標準差在公式中用斜體小寫 s 表示。

樣本變異數在公式中顯示為 s²。

何時使用標準差

連續資料：是

標準差對連續資料而言有意義。這種資料的測量尺度使用許多可能值。部分連續資料範例如下：

年齡
血壓
體重
溫度
速度。

對於所有這些範例，計算標準差有意義。

圖 5：對連續資料使用標準差。

排序或名目資料：否

根據此處的定義，標準差對於排序或名目資料沒有意義。這種資料的測量尺度僅使用幾個可能值。還有其他統計資料可以估計一組排序或名目資料值的分佈。

排序資料通常會分成有特定排序的組。例如，假設您進行了一項調查，其中要求您以「非常不同意」到「非常同意」的尺度提供意見。您的回應是排序型，參見下方圖 6。

名目資料也會將樣本分成組，但無特定排序。兩個範例分別為生物性別和居住國家（圖 7）。您可以在樣本中使用 M 代表男性，F 代表女性，也可以使用 0 和 1。對於國家/地區，您可以使用國家/地區縮寫，或者使用數字編碼國家/地區名稱。若對這種資料使用數字，則可以計算樣本標準差，但這沒有任何意義。

圖 6：不要將標準差用於排序資料。

圖 7：不要將標準差用於名目資料。

其他衡量變異性的方法

標準差是估計資料分佈的一種方法。範圍和四分位距 (IQR) 也估計分佈。與標準差不同，這些統計資料都不涉及資料中心。這些統計資料可用於小型資料集（範圍）或偏資料集 (IQR)。

範圍

範圍是資料中最低值和最高值之間的差值。

四分位距 (IQR)

四分位距是資料中二十五分位數和七十五分位數之間的差距。因此，與範圍或標準差相比，IQR 受極端值的影響較小。若資料具有極端值或存在偏斜，那麼 IQR 可能是描述資料集中變異性的不錯選擇。

layout

2 column

Style

columns-75-25, section-top-padding-xsmall