兩樣本 t 檢定
什麼是雙樣本 t 檢定?
雙樣本 t 檢定 (又稱為獨立樣本 t 檢定) 是一種用於檢定兩個群組的未知母體平均數是否相等的方法。
這是否與 A/B 測試相同?
是的,雙樣本 t 檢定會用於分析 A/B 測試的結果。
何時可以使用此檢定?
當資料值彼此獨立、從兩組常態分佈母體中隨機採樣,且兩個獨立群組擁有相同的變異數時,便可以採用此檢定方法。
如果群組多於兩個呢?
請使用多重比較方法。變異數分析 (ANOVA) 便是此類方法的一種。其他多重比較方法包含適用於所有成對差異的 Tukey-Kramer 檢定、將群組平均數與整體平均數比較的平均數分析 (ANOM) 或將各群組平均數與控制組平均數比較的 Dunnett 檢定。
如果兩個群組的變異數不同怎麼辦?
您仍可以使用雙樣本 t 檢定。但需使用不同的標準差估計值。
如果資料並非趨近於常態分佈怎麼辦?
如果您的樣本量非常小,可能無法檢定常態性。您可能需要仰賴自身對資料的理解。當您無法肯定地假設常態性時,可以進行未假設常態性的無母數檢定。
使用雙樣本 t 檢定
下列區段探討進行檢定和檢查資料的須知、進行檢定的方式,以及統計詳細資訊。
需要什麼?
針對兩樣本 t 檢定,我們需要兩個變數,其中一個變數定義兩個群組,第二個變數則用來測量我們所關心的項目。
我們也想知道兩個群體的母體平均數是否相異。以下有幾個範例:
- 我們有以英語為母語和非英語為母語的學生。所有學生都會進行閱讀測驗。我們的兩個群組分別為英語母語者和非英語母語者,要測量的是測驗分數。我們的想法是,由英語母語者和非英語母語者組成的基礎母體,測驗分數的平均數不會相同。我們想知道母體是英語母語者以及將英語當成第二外語的學習者,兩個群組的平均分數是否不同。
- 我們測量兩個不同品牌能量棒所含的蛋白質公克數。兩個群體即分別為兩個品牌。我們測量各能量棒的蛋白質公克數。我們的想法是,由兩個品牌能量棒組成的基礎母體,蛋白質含量公克數的平均數可能不同。我們想知道是否有證據能證明:兩個品牌能量棒的蛋白質含量公克數平均數相異或相同。
兩樣本 t 檢定假設
若要進行有效檢定:
- 資料值必須相互獨立。也就是單一觀察得出的測量結果不會影響其他觀察結論。
- 我們必須透過母體的隨機採樣觀察各群組資料。
- 各群組資料為常態分佈。
- 資料值為連續資料。
- 兩個獨立群體的變異數相同。
不過,對於非常小的群體資料,可能很難檢定這些要求。以下我們將探討如何使用JMP進行需求檢查,以及未達到要求時該怎麼做。
兩樣本 t 檢定範例
測量一個人體態的其中一種方式,就是測量其體脂率。平均體脂率會因年齡而異,但根據一些原則,男性常態範圍落在 15-20%;女性則為 20-25%。
我們的樣本資料來自一群一週上健身房三次,為期長達一年的男性與女性。教練測量了他們的體脂肪。下表為測量資料。
表 1:按性別分組的體脂率資料
群體 | 體脂肪比例 | ||||
男性 | 13.3 | 6.0 | 20.0 | 8.0 | 14.0 |
19.0 | 18.0 | 25.0 | 16.0 | 24.0 | |
15.0 | 1.0 | 15.0 | |||
女性 | 22.0 | 16.0 | 21.7 | 21.0 | 30.0 |
26.0 | 12.0 | 23.2 | 28.0 | 23.0 |
您可以清楚看到樣本中,男性與女性體脂肪的測量資料有些部分重疊,也有些部分不同。只看資料,很難確實得出結論,瞭解健身房的男性與女性的潛在母體體脂肪平均數是否相同。這就是統計檢定的價值所在,我們可以透過通用、統計上有效的方式做決策,以便所有人都根據相同資料值做決定。
檢查資料
讓我們從回答下列問題開始:兩樣本 t 檢定是否為評估男性與女性體脂肪差異的合適方法?
- 資料值必須獨立。任何人的體脂肪都不會受到其他人的體脂肪影響。
- 我們假設接受體脂肪測量的人,是從健身房會員母體採樣的簡單隨機樣本。
- 我們假設資料為常態分佈,且可以確認此假設。
- 體脂肪測量資料值必須獨立。測量結果為連續資料。
- 我們假設男性與女性的變異數相同,且可以確認此假設。
在進入分析前,我們一律都應該先快速瀏覽資料。下圖是男性與女性資料的直方圖與統計資料摘要。
兩個直方圖規模相同。粗略判斷,我們可以發現兩者並沒有異常點或離群值。資料大致上呈現鐘形,所以我們的初步想法為常態分佈似乎合理。
檢驗統計資料摘要後,我們發現標準差類似。這佐證了變異數相同的想法。我們接著也可以透過變異數檢定確認此想法。
根據這些觀察,似乎適合用兩樣本 t 檢定方法來檢定平均數差異。
如何進行兩樣本 t 檢定
我們需要各群組的平均值、標準差與樣本量。這些資料顯示於下表。
表 2:按性別分組的平均值、標準差與樣本量統計資料
群體 | 樣本量 (n) | 平均數 (X 能量棒) | 標準差 (s) |
女性 | 10 | 22.29 | 5.32 |
男性 | 13 | 14.95 | 6.84 |
在未進行任何檢定的狀況下,我們可以看到樣本中的男性與女性平均數並不相同。但有多不相同?這些平均數是否「趨近」,好讓我們能做出結論,認為健身房中大部分男性與女性母體的平均體脂肪相同?或者平均數差異大到不足以支持此結論?
我們將在下方的統計詳細資訊,深入說明兩樣本 t 檢定的基本原則,不過在這之前,必須先瞭解進行兩樣本 t 檢定的步驟。首先,從計算檢定統計量開始。此計算將從找到兩個平均數的差開始:
$ 22.29 - 14.95 = 7.34 $
我們用樣本中的差異估計兩個群組之間的母體平均數差。
接著,我們會計算合併標準差。如此一來,便能建出一個估計整體標準差。此估計值會針對不同群體大小做出調整。首先,我們會計算合併變異數:
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
$ s_p^2 = \frac{((10 - 1)5.32^2) + ((13 - 1)6.84^2)}{(10 + 13 - 2)} $
$ = \frac{(9\times28.30) + (12\times46.82)}{21} $
$ = \frac{(254.7 + 561.85)}{21} $
$ =\frac{816.55}{21} = 38.88 $
接下來,我們會計算合併變異數的平方根來取得合併標準差。也就是:
$ \sqrt{38.88} = 6.24 $
我們現在可以用全部的資料進行檢定統計,包括平均差、合併標準差與樣本量。我們計算檢定統計量的方式如下:
$ t = \frac{\text{群組平均差異}}{\text{差異標準誤差}} = \frac{7.34}{(6.24\times \sqrt{(1/10 + 1/13)})} = \frac{7.34}{2.62} = 2.80 $
若要評估平均數之間的差異,以便決定要採用哪個健身計畫,我們必須將檢定統計量與 t 值分佈的理論值做比較。此操作包含四個步驟:
- 決定我們願意為主張顯著差異承擔多少風險。針對體脂肪資料,我們決定為在男性與女性未知母體平均數相同的情況下,為主張兩者不相同承擔 5% 風險。以統計術語來說,顯示水準由 α 值決定,將設為 0.05。實務上,在收集資料和計算檢定統計量前做好此決定會比較理想。
- 計算檢定統計量。我們的檢定統計量為 2.80。
- 根據我們的虛無假設,男性與女性平均數相同,而因此找到 t 值分佈的理論值。大多數統計教材都有查找 t 值分佈的表格。您也可以在網路上找到此表格。最有可能的情況是您會使用軟體,而非紙本表格。
若要找到此值,我們需要顯示水準 (α = 0.05) 與自由度。自由度 (df) 取決於兩個群組的樣本量。針對體脂肪資料:
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
α = 0.05 且自由度為 21 時,考慮雙尾檢定,t 值為+/- 2.080。 - 我們將統計量值 (2.80) 與 t 值加以比較。由於 2.80 > 2.080,我們否定男性與女性體脂肪平均數相同的虛無假設,並總結我們有證據證明母體中男性與女性的體脂肪不同。
統計詳細資訊
讓我們來看看體脂肪資料,以及使用統計術語表示的兩樣本 t 檢定。
我們的虛無假設為基礎母體平均數相同。虛無假設的寫法為:
$ H_o: \mathrm{\mu_1} =\mathrm{\mu_2} $
對立假設為平均數不相等。公式寫法為:
$ H_o: \mathrm{\mu_1} \neq \mathrm{\mu_2} $
我們計算各群組的平均值,再計算兩個平均值之間的差異。公式寫法為:
$\overline{x_1} - \overline{x_2} $
我們計算合併標準差。這假設潛在母體的變異數相同。合併變異數公式寫法為:
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
公式表示第一個群組的樣本為 n1,第二個群組則為 n2。兩個群組的標準差為 s1 與 s2。此估計值讓兩個群組能夠擁有不同的觀察數量。合併標準差為變異數的平方根,且寫作 sp。
如果兩個群組的樣本數相同怎麼辦?在此情況下,合併變異數估計值就是兩個群組的變異數平均:
$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $
檢定統計量的計算方式為:
$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $
兩個群組平均數的檢定統計資料分子不同。可估計兩個未知母體平均數之間的差異。分母是兩個未知母體平均數之間差異的標準誤差估計值。
技術性細節:針對單一平均數,標準誤差為:$ s/\sqrt{n} $ . 上述公式將此概念延伸至兩個使用合併估計值作為 s (標準差) 的群組,且群組規模可以不同。
接著我們使用選定的 Alpha 值與資料自由度,比較檢定統計資料與 t 值。以體脂肪資料為例,我們將 α 值設為 0.05。自由度 (df) 取決於群組大小,計算方式為:
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
公式表示第一個群組的樣本量為 n1,第二個群組則為 n2。統計學家將 α 值 = 0.05,且自由度為 21 的 t 值記錄為:
$ t_{0.05,21}$
考慮雙尾檢定,平均拆分0.05的α 值,且自由度為 21 的 T 值為± 2.080。比較之後可能產生兩種結果::
- 測量統計量介於t值範圍之間。您無法否定平均數相同的假設。您的結論是資料支持男性與女性平均體脂肪相同的假設。
- 測量統計量介於t值範圍之外。您否定平均數相同的假設。您無法得出男性與女性平均體脂肪相同的結論。
變異數不同的 t 檢定
當兩個群組的變異數不同時,我們無法使用標準差的合併估計值。相反的,我們必須分別處理各群組的標準誤差。檢定統計量為:
$ t = \frac{ (\overline{x_1} - \overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $
檢定統計量的分子相同。差異在於兩個群組的平均數。分母是平均值之間差異整體標準誤差的估計值。計算方式取決於各群組各自的標準誤差。
變異數不同時,t 值的自由度計算方式比變異數相同時複雜,且通常交由統計軟體套件完成。須記住的關鍵在於,如果您無法使用標準差的合併估計值,便也無法使用自由度的簡易公式。
常態性檢定
相較於樣本量較大的情況,樣本量較小時,會更重視常態性假設。
常態分布會對稱分布,也就是說中心的兩端資料是「平均」的。常態分佈沒有極端值或離群值。您可以用圖表檢查常態分佈的這兩項特徵。我們先前已決定體脂肪資料「趨近」於常態分佈,因此可以直接假設為常態。下圖為男性與女性的常態分位數圖,可作為我們決定的佐證。
您也可以使用軟體進行常態性的正式檢定。上圖是使用 JMP 軟體進行常態性檢定的結果。我們分別檢定各群組。男性與女性的檢定都顯示我們無法否定常態分佈假設。我們可以繼續假設男性與女性的體脂肪資料為常態分佈。
變異數不同的檢定
變異數不同的檢定相當複雜。我們不會詳細說明計算過程,但會提供 JMP 軟體的計算結果。下圖顯示體脂肪資料變異數不同時的檢定結果。
我們不會深入說明變異數不同時的不同檢定方法,而是會使用 F 檢定。在檢定前,我們決定為在變異數不同時,主張變異數相同承擔 10% 的風險。這表示我們將 α 設為 0.10。
如同大多數統計軟體,JMP 顯示檢定的 p 值。這是我們找到比觀察結果更極端之檢定統計量值的機率。這很難以人工計算。如上圖,F 檢定統計量為 1.654;而 p 值為 0.4561。這比我們的 α 值更大:0.4561 > 0.10。我們無法否定變異數相同的假設。實務上,我們可以繼續運用雙樣本 t 檢定,假設兩個群組的變異數相同。
瞭解 p 值( p-value)
利用資料視覺化,確認您的檢定統計資料是否為分佈中的較極端值。下表顯示自由度為 21 的 t 分佈。
由於我們使用雙尾檢定,且 α = .05,圖中顯示 2.080 值剛好「分界」兩端各 2.5% 的資料。只有 5% 的整體資料出現在超過 2.080 的那端。因為我們的檢定統計資料 2.80 超過分界點,所以我們否定平均數相同的虛無假設。
將資料集合在軟體中
下圖顯示 JMP 軟體中,體脂肪資料的雙樣本 t 檢定。
假設變異數相同的兩樣本 t 檢定結果與我們先前的計算結果相同。檢定統計資料為 2.79996。軟體顯示了雙尾檢定與單邊檢定的結果。雙尾檢定是我們想使用的方法 (機率 > |t|)。我們的虛無假設為男性與女性的平均體脂肪相同。對立假設為平均體脂肪不相等。單邊對立假設使用單邊檢定,例如:虛無假設認為男性的平均體脂肪低於女性。
我們可以否定兩個群組平均體脂肪相同的假設,並得出我們有證據證明男性與女性母體的體脂肪不同的結論。軟體顯示 p 值為 0.0107。我們決定為在男性與女性平均體脂肪相同時,做出平均體脂肪不相同的結論承擔 5% 的風險。在做統計檢定前就做出此決定非常重要。
圖表也顯示 t 檢定的結果並未假設變異數相等。此檢定未使用標準差的合併估計值。如上所述,此檢定的自由度公式也很複雜。您可以看到自由度為 20.9888。軟體顯示 p 值為 0.0086。同樣,在我們決定的 5% 風險內,我們可以否定男性與女性平均體脂肪相同的虛無假設。
其他主題
如果群組多於兩個呢?
如果資料並非常態分佈怎麼辦?
如果您的樣本量非常小,可能難以檢定常態性。在此狀況下,您可能需要仰賴自身對測量結果的理解。例如:針對體脂肪資料,教練知道體脂肪的潛在分佈為常態分佈。即便樣本量非常小,教練也很可能直接使用 t 檢定並假設常態性。
如果您知道基礎測量資料並非常態分佈呢?或者如果您的樣本量很大,且常態性檢定遭否定呢?在此情況下,您可以使用無母數分析。這種類型的分析不會假設資料值屬於特定分佈。針對兩樣本 t 檢定,可以使用的無母數檢定為 Wilcoxon 等級和檢定。