2標本のt検定
2標本のt検定とは?
2標本のt検定(独立標本のt検定ともいう)は、2つのグループの未知の母平均が等しいか否かを検定するために用いられる方法です。
これはA/B検定と同じでしょうか?
はい、A/B検定の結果を分析するには、2標本のt検定を使用します。
どんな時にこの検定を使用しますか?
この検定は、データ値が独立で、2つの正規母集団から無作為に抽出されていて、さらにその2つの独立したグループが等分散性を示す場合に使用できます。
3つ以上のグループがある場合は?
多重比較法を使用します。分散分析(ANOVA)はそのような手法の一つです。その他の多重比較法としては、すべてのペアごとの差を調べるTukey-Kramerの検定、グループの平均を全体の平均と比較する平均分析(ANOM)、各グループの平均をコントロールの平均と比較するDunnettの検定などがあります。
2つのグループの分散が等しくない場合は?
その場合でも2標本のt検定を使うことは可能です。標準偏差の別の推定値を使用します。
データがほぼ正規分布でない場合は?
標本サイズが非常に小さい場合は、正規性を検定できない可能性があります。データに関する洞察が必要になるかもしれません。正規性を仮定することに問題がある場合は、正規性を仮定しないノンパラメトリック検定を行うことができます。
2標本のt検定の使用
以下のセクションでは、検定を実行するために必要なもの、データの確認方法、検定の実行方法、および統計学的詳細について説明します。
必要なものは何でしょう?
2標本のt検定では、2つの変数が必要です。1つ目の変数が2つのグループを定義します。2つ目の変数は、関心のある測定値です。
また、基になる母集団の平均値が2つのグループで異なるという考え、つまり仮説を持ちます。いくつかの例を紹介します。
- 英語を母国語とする生徒とそうでない生徒がいるとします。すべての生徒がリーディング試験を受けます。2つのグループは、英語を母国語とする人たちと、そうでない人たちです。測定値は、試験スコアです。私たちの考えは、英語を母国語とする人とそうでない人の基になる母集団で試験の平均スコアは同じではないということです。英語を母国語とする人たちの集団の平均スコアが、英語を第二言語として学んだ人たちと異なるかどうかを知りたいと考えています。
- 2つの異なるブランドのエナジーバーに含まれるタンパク質のグラム数を測定しました。2つのグループは、2つのブランドです。測定値は、各エナジーバーのタンパク質のグラム数です。私たちの考えは、2つのブランドの基になる母集団で、タンパク質の平均グラム数が異なるのではないかということです。2つのブランドのエナジーバーのタンパク質の平均グラム数が異なるという証拠があるのかどうかを知りたいと考えています。
2標本のt検定の仮定
妥当な検定を行うためには次の要件を満たす必要があります。
- データの値が独立している。ある観測データの測定値が、他の観測データの測定値に影響を与えることはない。
- 各グループのデータは、母集団から無作為に抽出されたものである。
- 各グループのデータは正規分布している。
- データ値は連続変数である。
- 2つの独立したグループの分散は等しくなっている。
非常に小さなグループのデータでは、これらの要件を検定するのは難しい場合があります。以下では、ソフトウェアを使用して要件を確認する方法と、要件が満たされていない場合の対処方法について説明します。
2標本のt検定の例
人の健康状態を測定する1つの方法は、体脂肪率を測定することです。平均体脂肪率は年齢によって異なりますが、いくつかのガイドラインによると、体脂肪率の正常範囲は男性の場合は15〜20%であり、女性の場合は20〜25%です。
この標本データは、1年間ジムでトレーニングを週に3回行った男性と女性のグループからのものです。そして、彼らのトレーナーは体脂肪を測定しました。以下の表にデータを示します。
表1:性別でグループ分けされた体脂肪率データ
グループ | 体脂肪率(%) | ||||
男 | 13.3 | 6.0 | 20.0 | 8.0 | 14.0 |
19.0 | 18.0 | 25.0 | 16.0 | 24.0 | |
15.0 | 1.0 | 15.0 | |||
女 | 22.0 | 16.0 | 21.7 | 21.0 | 30.0 |
26.0 | 12.0 | 23.2 | 28.0 | 23.0 |
標本の男性と女性の体脂肪の測定値には重なりがはっきりと見られますが、いくつかの違いも見られます。データを見ただけでは、ジムに通う男性と女性の基になる母集団が同じ平均体脂肪を持っているかどうかについて、確固たる結論を出すことは困難です。ここで統計的検定が価値を持ちます。統計的検定は、統計的に妥当で共通した判定方法を提供するため、同じデータ値のセットに対して全員が同じ判断を下すことができます。
データをチェックする
次の項目に答えることから始めます。男性と女性の体脂肪の違いを評価するのに、2標本のt検定は適切な方法でしょうか?
- データの値は独立しています。ある人の体脂肪は、他の人の体脂肪とは関係ありません。
- 測定された人々は、ジムの会員の母集団から単純無作為抽出されたと仮定します。
- データが正規分布していると仮定します。この仮定は確認することができます。
- データ値は体脂肪の測定値です。測定値は連続変数です。
- 男性と女性の分散が等しいと仮定します。この仮定は確認することができます。
分析に取り掛かる前に、常にデータをざっと確認する必要があります。次の図は、男性と女性のヒストグラムと要約統計量を示しています。
2つのヒストグラムは同じ目盛りで表示されています。ざっと見ると、異常値、つまり外れ値がないことがわかります。データはおおよそ釣鐘型に見えるので、正規分布であるという最初の想定は妥当であると考えられます。
要約統計量を調べると、標準偏差が同程度の値であることがわかります。これは、等分散性の想定を裏付けています。等分散性の検定を使用してこれを確認することもできます。
これらの観察に基づくと、2標本のt検定は、平均の違いを検定するための適切な方法であるように思われます。
2標本のt検定の実行方法
グループごとに、平均、標準偏差、および標本サイズが必要です。これらを以下の表に示します。
表2:性別でグループ分けされた平均、標準偏差、および標本サイズの統計量
グループ | 標本サイズ(n) | 平均(Xバー) | 標準偏差(s) |
女性 | 10 | 22.29 | 5.32 |
男 | 13 | 14.95 | 6.84 |
検定をするまでもなく、標本の男性と女性の平均値が同じではないことがわかります。でも、どれくらい違うのでしょうか? この平均値は、ジムに通う男性と女性のより大きな母集団において、平均体脂肪が同じであると結論づけるのに「十分なほど近い」ものでしょうか? それとも、平均値が違いすぎて、このような結論にならないのでしょうか?
2標本のt検定の原理については、後述の統計学的詳細のセクションでさらに説明しますが、まずは最初から最後まで手順を進めてみましょう。まずは、検定統計量の算出から始めます。この計算は、まず2つの平均値の差を求めることから始まります。
$ 22.29 - 14.95 = 7.34 $
標本におけるこの差は、2つのグループの母平均の差を推定します。
次に、プールした標準偏差を計算します。これは、全体の標準偏差の統合された推定値になります。この推定値は、グループサイズの違いを調整しています。まず、プールした分散を計算します。
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
$ s_p^2 = \frac{((10 - 1)5.32^2) + ((13 - 1)6.84^2)}{(10 + 13 - 2)} $
$ = \frac{(9\times28.30)+ (12\times46.82)}{21}$
$ = \frac{(254.7+ 561.85)}{21} $
$ =\frac{816.55}{21}= 38.88 $
次に、プールした分散の平方根を取って、プールした標準偏差を求めます。これは次のようになります。
$ \sqrt{38.88}= 6.24 $
これで、検定統計量を得るためのすべての要素が揃いました。平均値の差、プールした標準偏差、標本サイズがあります。検定統計量は次のように計算します。
$ t = \frac{\text{difference of group averages}}{\text{standard error of difference}} = \frac{7.34}{(6.24\times\sqrt{(1/10 + 1/13)})} = \frac{7.34}{2.62}= 2.80 $
ジムのプログラムを判断するために、検定統計量をt分布の理論値と比較して、平均値の差を評価します。この評価には、次の4つのステップが含まれます。
- 有意差ありと宣言するために、引き受けるリスクを決定します。体脂肪データでは、男女の未知の母平均が、実際には等しい場合に等しくないとしてしまうリスクを5%取ると決定します。統計学の用語では、αで表される有意水準を0.05とすることです。この決定は、データを収集する前、および検定統計量を計算する前に行うことをお勧めします。
- 検定統計量を計算します。検定統計量は2.8です。
- 男性と女性の平均が等しいという帰無仮説の下で、t分布から理論値を見つけます。ほとんどの統計書には、t分布の早見表があります。オンラインで分布表を見つけることもできます。最も良くある状況は、ソフトウェアを使用し、印刷された表は使用しないことです。
この値を見つけるには、有意水準(α = 0.05)と自由度が必要です。自由度(df)は、2つのグループの標本サイズに基づいています。体脂肪データの場合:
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
α = 0.05かつ自由度21の場合のt値は2.080です。 - 統計量の値(2.80)をt値と比較します。2.80 > 2.080 なので、男性と女性の体脂肪の平均値が等しいという帰無仮説を棄却し、母集団の体脂肪が男性と女性で異なるという証拠があると結論付けます。
統計の詳細
統計用語を使用して、体脂肪データと2標本のt検定を見てみましょう。
私たちの帰無仮説は、基になる母平均が同じであるというものです。帰無仮説は次のように記述されます。
$ H_o: \mathrm{\mu_1} =\mathrm{\mu_2} $
対立仮説は、平均が等しくないというものです。これは次のように記述されます。
$ H_o: \mathrm{\mu_1} \neq \mathrm{\mu_2} $
各グループの平均を計算してから、2つの平均の差を計算します。これは次のように記述されます。
$\overline{x_1} - \overline{x_2} $
プールした標準偏差を計算します。これは、基になる母集団の分散が等しいことを前提としています。プールした分散の計算式は次のように記述されます。
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
この計算式は、最初のグループの標本サイズをn1として示し、2番目のグループの標本サイズをn2として示しています。2つのグループの標準偏差は、s1とs2です。この推定値では、2つのグループが異なる数の観測値を持つことができます。プールした標準偏差は分散の平方根であり、spとして記述されます。
2つのグループの標本サイズが同じ場合はどうなるでしょうか? この状況では、プールした分散の推定値は、単に2つのグループの分散の平均です。
$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $
検定統計量は次のように計算されます。
$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $
検定統計量の分子は、2つのグループ平均の差です。これは、2つの未知の母平均の差を推定します。分母は、2つの未知の母平均の差の標準誤差の推定値です。
技術的詳細:単一の平均の場合、標準誤差は$ s/\sqrt{n} $です。上記の計算式は、この考えを、s(標準偏差)のプールした推定値を使用して、異なるグループサイズを持ち得る2つのグループに拡張します。
次に、検定統計量を、選択したα値とデータの自由度を使用してt値と比較します。例として体脂肪データを使用して、α = 0.05に設定します。自由度(df)はグループサイズに基づいており、次のように計算されます。
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
この計算式は、最初のグループの標本サイズをn1として示し、2番目のグループの標本サイズをn2として示しています。統計学者は、α = 0.05かつ自由度21のt値を次のように記述します。
$ t_{0.05,21}$
α = 0.05かつ自由度21のt値は2.080です。データとの比較から起こり得る結果が2つあります。
- 検定統計量はt値よりも小さくなっています。そのため平均が等しいという仮説を棄却できません。男性と女性の平均体脂肪が同じであるという仮定とデータが整合していると結論づけます。
- 検定統計量はt値よりも大きくなっています。そのため平均値が等しいという仮説を棄却します。男性と女性の平均体脂肪が同じであるという結論にはなりません。
個々の分散を用いたt検定
2つのグループの分散が等しくない場合、標準偏差のプールした推定値を使用できません。代わりに、各グループの標準誤差を個別に取得します。検定統計量は次の通りです。
$ t = \frac{ (\overline{x_1} - \overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $
検定統計量の分子は同じです。これは、2つのグループ平均の差です。分母は、平均の差の全体の標準誤差の推定値です。これは、各グループごとの標準誤差に基づいています。
t値の自由度の計算は、等分散の場合よりも異分散の場合の方が複雑であり、通常は統計ソフトウェアパッケージに任されています。覚えておくべき重要な点は、標準偏差のプールした推定値を使用できない場合、自由度の単純な計算式を使用できないことです。
ソフトウェアを使用して、正規性の検定を正式に行うこともできます。上の図は、JMPソフトウェアを使用して正規性を検定した結果を示しています。それぞれのグループを別々に検定します。男性の検定と女性の検定はどちらも、正規分布の仮説を棄却できないことを示しています。男性と女性の体脂肪データは正規分布していると仮定して話を進めることができます。
等分散性の検定
等分散の検定は複雑です。ここでは計算の詳細は紹介しませんが、JMPソフトウェアによる結果を紹介します。下の図は、体脂肪のデータに対する等分散性の検定の結果です。
さまざまなタイプの等分散性の検定の詳細には入らず、F検定を使用します。検定の前に、分散が等しい場合に分散が等しくないと結論付けるリスクを10%受け入れることにしました。これは、α = 0.10に有意水準を設定したことを意味します。
ほとんどの統計ソフトウェアと同様に、JMPは検定のp値を表示します。これは、観測した値よりも極端な値を、検定統計量がとる可能性です。これを手計算で算出するのは困難です。上の図では、F検定の統計量は1.654で、p値は0.4561です。これはα値よりも大きい値です(0.4561 > 0.10)。分散が等しいという仮説を棄却できませんでした。実際の手順では、2つのグループの分散が等しいと仮定して2標本のt検定を進めることができます。
p値の解釈
可視化することで、検定統計量が分布でより極端な値であるかどうかを確認できます。下の図は、自由度21のt分布を示しています。
検定は両側検定であり、α = 0.05に設定されているため、この図は、2.080の値が2つの裾のそれぞれのデータの2.5%を「カットオフ」することを示しています。全体のデータの5%だけが、2.080よりも裾の外側にあります。2.80の検定統計量はカットオフ点を超えているため、平均が等しいという帰無仮説を棄却します。
ソフトウェアですべてをまとめる
下図は、JMPソフトウェアによる、体脂肪データの2標本のt検定の結果です。
等分散性を仮定した2標本のt検定の結果は、前の計算と同じです。検定統計量は2.79996です。JMPソフトウェアは、両側検定と片側検定の結果を表示します。必要なのは、両側検定の結果です(Prob > |t|)。この例の帰無仮説は、男性と女性の平均体脂肪が等しいというものです。対立仮説は、平均体脂肪が等しくないというものです。片側検定では、片側対立仮説を対象としています。例えば、男性の体脂肪が女性の体脂肪よりも少ないというのがこの場合の帰無仮説です。
2つのグループの平均体脂肪が等しいという仮説を棄却し、母集団において体脂肪が男性と女性の間で異なるという証拠があると結論付けることができます。JMPソフトウェアは、0.0107のp値を示しています。男性と女性の平均体脂肪が等しいときに、等しくないと結論付けるリスクを5%に決定したのでした。統計的検定を行う前に、この決定を行うことが重要です。
この図は、等分散性を仮定していないt検定の結果も示しています。この検定では、標準偏差のプールした推定値は使用されません。上で述べたように、この検定には自由度の複雑な計算式も必要です。自由度は20.9888であることがわかります。JMPソフトウェアは、0.0086のp値を示しています。ここでも、リスクを5%に決定しているため、男性と女性の平均体脂肪が等しいという帰無仮説を棄却します。
その他のトピック
3つ以上のグループがある場合は?
データが正規分布していない場合は?
標本サイズが非常に小さい場合、正規性を検定するのは難しいかもしれません。このような状況では、測定値に関する洞察が必要になるかもしれません。例えば、体脂肪データの場合、体脂肪の基になる分布が正規分布していることをトレーナーが知っているとします。非常に小さな標本の場合でも、トレーナーは正規性を仮定して、t検定で話を進めるかもしれません。
基になる測定値が正規分布していないことがわかっている場合はどうでしょうか? または、標本サイズが大きく、正規性の検定が棄却された場合はどうでしょうか? このような状況では、ノンパラメトリック検定を利用できます。このタイプの分析は、データ値が特定の分布からのものであるという仮定に依存しません。2標本のt検定の場合、Wilcoxonの順位和検定というノンパラメトリック検定を利用できます。