成對 t 檢定
什麼是成對 t 檢定?
成對 t 檢定是用來檢定配對測量值的平均數差異是否為 0 的方法。
何時可以使用此檢定?
當您的資料值為配對測量結果時,可以使用此檢定。例如:您可能有一群人的前後測量結果。此外,配對測量資料的差異分佈也必須為常態分佈。
成對 t 檢定有哪些別名?
成對 t 檢定又稱為相依樣本 t 檢定、成對差異 t 檢定、相符成對 t 檢定與重複樣本 t 檢定。
如果資料並非趨近於常態分佈怎麼辦?
如果您的樣本量非常小,可能無法檢定常態性。您可能需要仰賴自身對資料的理解。或者,您可以進行未假設常態性的無母數檢定。
使用成對 t 檢定
下列區段探討進行檢定和檢查資料的須知、進行檢定的方式,以及統計詳細資訊。
需要什麼?
針對成對樣本 t 檢定,我們需要兩個變數,一個變數定義要觀察的配對。第二個變數則是測量結果。有時候,我們已有測量結果變數的配對差異。有時候則是有個配對「前」與「後」測量結果的個別變數,因此需要計算差異。
針對檢定,我們有個想法,或假設,也就是兩者的差異為 0。以下為三個範例:
- 一組皮膚乾燥的人在一隻手臂上擦藥用乳液;另一隻手臂則擦非藥用乳液。一週後,醫師測量兩隻手臂發紅的狀況。我們想知道藥用乳液是否比非藥用乳液效果更好。我們藉由觀察擦藥用乳液的手臂發紅情況是否比另一隻手臂輕微來判斷。由於我們有每個人的配對測量資料,因此能找到差異。接著我們要檢定平均差是否為 0。
- 我們測量參與戒菸計畫者的體重。我們有每個人在計畫開始與結束時的體重資料,並且想知道計畫參與者的體重變化平均是否為 0。
- 一位教師給學生一份考題,並於隔天再給學生一份相同教材的不同考題。教師想知道兩份考題是否同等困難。我們計算各學生的測驗分數差異,接著檢定平均差是否為 0。
成對樣本 t 檢定假設
若要應用成對 t 檢定,以檢定配對測量資料之間的差異,下列假設必須成立:
- 受試者必須各自獨立。一位受試者的測量結果不會影響其他受試者。
- 各個配對測量資料必須從相同受試者取得。舉例來說,上述範例中,吸菸者前後的體重必須來自同一人。
- 測量的差異必須為常態分佈。
成對 t 檢定範例
一位教師希望明年在班上使用兩種考題。今年,她讓學生同時接受兩種考題的測驗。她希望知道兩種考題的難度是否相同,並希望透過檢視分數的差距加以判斷。若學生分數的平均差異「趨近」於零,她就可以得出兩種考題一樣困難的結論。資料如下:
表 1:各學生的測驗分數
學生 | 測驗 1 分數 | 測驗 2 分數 | 分數差 |
Bob | 63 | 69 | 6 |
Nina | 65 | 65 | 0 |
Tim | 56 | 62 | 6 |
Kate | 100 | 91 | -9 |
Alonzo | 88 | 78 | -10 |
Jose | 83 | 87 | 4 |
Nikhil | 77 | 79 | 2 |
Julia | 92 | 88 | -4 |
Tohru | 90 | 85 | -5 |
Michael | 84 | 92 | 8 |
Jean | 68 | 69 | 1 |
Indra | 74 | 81 | 7 |
Susan | 87 | 84 | -3 |
Allen | 64 | 75 | 11 |
Paul | 71 | 84 | 13 |
Edwina | 88 | 82 | -6 |
若您參閱上表,會看到有些分數差為正數;有些則為負數。您可能認為兩份考題同等困難,但其他人可能會反對。統計檢定讓我們能用常見且客觀的方法做決策,以便所有人都根據相同資料值做決定。
檢查資料
讓我們從回答下列問題開始:配對樣本 t 檢定是否為評估兩份考題難度差異的合適方法?
- 受試者各自獨立。每位學生都是獨自完成兩份考題。
- 各個配對測量資料皆從相同受試者取得。每位學生皆完成兩份考題。
- 差異的分佈為常態分佈。我們目前會假設這為真,稍後會再加以檢定。
我們決定選擇的分析方法有效。
在進入分析前,我們應先將資料繪製成圖表。下圖是分數差異的直方圖與統計量摘要。
從直方圖判斷,我們可以發現並沒有異常點或離群值。資料大致上呈現鐘形,所以我們的初步想法為,差異呈常態分佈似乎合理。
從統計來看,我們可以看到平均相差,或平均數相差,為 1.3。這個結果是否「趨近」於 0,而能讓教師認定兩份考題同等困難?還是並非如此?
如何進行成對 t 檢定
我們將於下方的統計詳細資訊區段深入說明成對 t 檢定的基本原則,但讓我們先瞭解從頭到尾需進行的步驟。首先,從計算檢定統計量開始。為了完成此步驟,我們需要平均差、差異的標準差以及樣本數。如上圖 1 所示。(請注意,下方將統計量四捨五入至小數點後兩位。JMP軟體通常會顯示更多小數位數,並於計算中使用。)
平均分數差為:
$ \overline{x_d} = 1.31 $
接著我們計算分數差的標準誤差。計算方式為:
$ \text{Standard Error} = \frac{s_d}{\sqrt{n}} = \frac{7.00}{\sqrt{16}}= \frac{7.00}{4}= 1.75 $
根據上述公式,n 是學生數量,也就是差異的數量。差異的標準差為 sd。
我們現在可以用這些資料進行檢定統計。我們計算統計量的方式為:
$ t = \dfrac{\{平均差異}}{\{標準誤差}} = \frac{1.31}{1.75}= 0.750 $
為了做出決策,我們將檢定統計量與 t 值分佈的值做比較。此操作包含四個步驟:
- 決定我們願意為實際資料沒有差異情形下卻判斷為顯著差異承擔多少風險。針對測驗分數資料,我們決定當測驗分數平均數差異並非為0時,為主張未知測驗分數平均數差異等於 0 承擔 5% 風險。以統計術語來說,顯著水準由 α 值決定,將設為 0.05。實務上,在收集資料和計算檢定統計量前,做好此決定會比較理想。
- 計算檢定統計量。我們的檢定統計量為 0.750。
- 我們找到 t 分佈的值。大多數統計教材都有查找分佈的表格。您也可以在網路上找到此表格。最有可能的情況是您會使用軟體,而非紙本表格進行分析。
若要找到此值,我們需要顯示水準(α = 0.05) 與自由度。自由度 (df) 取決於樣本數。針對測驗分數資料:
$ df = n - 1 = 16 - 1 = 15 $
α = 0.05 且自由度為 15 時的 T 值為 2.131。 - 我們將統計量值 (0.750) 與 t 值比較。因為 0.750 < 2.131,我們無法否定平均分數差異等於 0 的想法,進而做出兩個測驗難度相同的結論。
統計詳細資訊
讓我們來看看分數資料,以及使用統計術語表示的成對 t 檢定。
我們的虛無假設為母體的平均差等於 0。虛無假設的寫法為:
$ H_o: \mathrm{\mu_d} = 0 $
替代假設為母體的平均差不等於 0。公式寫法為:
$ H_o: \mathrm{\mu_d} \neq 0 $
標準誤的計算方式為:
$ 標準誤差 = \frac{s_d}{\sqrt{n}} $
公式表示樣本標準差為 sd,而樣本量為 n。
檢定統計量的計算方式為:
$ t = \frac{\mathrm{\mu_d}}{\frac{s}{\sqrt{n}}} $
我們使用選定的 Alpha 值與資料自由度,比較檢定統計量與 t 值。以測驗分數資料為例,我們將 α 值設為 0.05。自由度 (df) 取決於樣本量,計算方式為:
$ df = n - 1 = 16 - 1 = 15 $
統計學家將 α 值 = 0.05,且自由度為 15 的 t 值記錄為:
$ t_{0.05,15}$
考慮此檢定為雙尾檢定,平均拆分0.05的α 值,且自由度為 15 的 t 值為 2.131。比較之後可能產生兩種結果:
- 測量統計量低於 t 值。您無法否定平均數差異等於 0 的假設。教師可以得出實際上兩種考題同等困難的結論。她可以在明年同時使用這兩份考題,並讓一半的學生測驗其中一份考題,另一半學生測驗另一份。
- 檢定統計量高於 t 值。您否定平均差等於 0 的假設。教師可以得出實際上兩種考題並非同等困難的結論。她必須讓所有學生測驗相同考題。
常態性檢定
相較於樣本量較大的情況,樣本量較小時,會更重視常態性假設。
常態分布會對稱分布,也就是說中心的兩端資料是對等的。常態分佈沒有極端值或離群值。您可以用圖表檢查常態分佈的這兩項特徵。我們先前已決定測驗分數資料「趨近」於常態分佈,因此可以直接假設常態性。下圖為資料的常態分位數圖,可作為我們決定的佐證。
您也可以使用軟體進行常態性的正式檢定。下圖 3 顯示使用 JMP 軟體進行常態性檢定的結果。我們檢定分數差異的常態分佈,且無法否定常態分佈的假設。因此可以繼續進行成對 t 檢定。
如果資料並非常態分佈怎麼辦?
如果您的樣本量非常小,會難以檢定常態性。在此狀況下,您需要仰賴自身對測量結果的理解。例如:針對測驗分數資料,教師知道分數差異的潛在分佈為常態分佈。即便樣本量非常小,教師也很可能直接使用 t 檢定並假設常態性。
如果您知道基礎測量資料並非常態分佈呢?或者如果您的樣本量很大,且常態性檢定遭否定呢?在此情況下,您可以使用無母數分析。這種類型的分析不會假設資料值屬於特定分佈。針對配對樣本 t 檢定,可以使用的無母數分析為 Wilcoxon 符號檢定。
瞭解 p 值
利用資料視覺化,確認您的檢定統計量是否為分佈中的較極端值。t 分佈與常態分佈類似。下表顯示自由度為 15 的 t 分佈。
由於我們的檢定為雙尾檢定,且 α = 0.05,圖表顯示值 2.131 剛好「截斷」兩端各 2.5% 的資料。只有 5% 的整體資料出現在超過 2.131 的那端。
圖 5 顯示我們的結果落在圖表何處。您可以看到檢定統計量 (0.75) 離「在尾端之外」還不夠遠,因此不足以拒絕平均數差等於 0 的假設。
將資料集合在軟體中
若要在真實世界中進行成對 t 檢定,您大多數時間很可能都是使用軟體完成。下圖顯示 JMP 軟體的測驗分數資料成對樣本 t 檢定結果。
軟體顯示雙尾檢定 (機率 > |t|) 與單邊檢定的結果。雙尾檢定是我們想使用的方法。我們的虛無假設為配對測驗分數的平均差等於 0。替代假設為平均差不等於 0。
軟體顯示雙尾檢定的 p 值為 0.4650。這表示當基礎母體平均差為 0 時,觀察到樣本平均差為 1.31 以上的機率大約是 100 次內有 47次。我們能放心決定不否定虛無假設。教師可以在明年同時使用這兩份考題,並讓一半的學生測驗其中一份考題,另一半學生測驗另一份。