t分布

t分布とは?

t分布は、母標準偏差が未知で、観測値が正規母集団から得られた場合の、母平均に対する標本平均の標準化された距離を表します。

t分布は、Studentのt分布と同じでしょうか?

はい。

t分布とz分布の主な違いとは?

標準正規分布つまりz分布は、母標準偏差が既知であることを前提としています。t分布は、標本標準偏差に基づいています。

t分布 vs. 正規分布

t分布は、正規分布に似ています。正確な数学的定義があります。複雑な計算をするのではなく、t分布の有用な特性と、なぜそれが分析において重要なのかを見てみましょう。

  • t分布は、正規分布と同様に滑らかな形状をしています。
  • t分布は、正規分布と同様に左右対称の形状をしています。平均値で半分に折ることを考えれば、それぞれの面は完全に重なります。
  • t分布は、標準的な正規分布(またはz分布)と同様に、平均値がゼロです。
  • 正規分布は、母標準偏差が既知であることを前提としています。t分布はこの仮定をしていません。
  • t分布は、自由度によって定義されます。これは標本サイズに関連しています。
  • t分布は、標本サイズが小さい場合や、母標準偏差がわからない場合、またはその両方の場合に最も有効です。
  • 標本サイズが大きくなると、t分布は正規分布に似てきます。

次のグラフは、3つのt分布と標準正規分布を比較したものです。

図1:3つのt分布と標準正規(z)分布。

すべての分布は滑らかな形状をしています。すべての分布は対称的です。すべての分布の平均はゼロです。

t分布の形状は、自由度によって異なります。自由度の高い曲線は背が高く、裾が薄くなっています。3つのt分布はすべて、z分布よりも「裾が重い」分布です。

自由度の高い曲線がどのようにz分布に似ているかがわかります。自由度1の曲線(ピンク)をz分布の曲線(緑)と比較します。自由度1のt分布は、z分布よりも背が低く、裾が厚くなります。次に、自由度10の青い曲線をz分布の曲線(緑)と比較します。これらの2つの分布は非常に似ています。

一般的な経験則では、標本サイズが30以上の場合、t分布の代わりにz分布を使用できます。下の図2は、自由度30のt分布とz分布を示しています。この図では、zに緑色の点線の曲線を使用していて、両方の曲線を確認できます。この類似性が、統計的手法で標本サイズが十分に大きい場合に、t分布の代わりにz分布が使用される理由の1つです。

図2:自由度30のt分布とz分布

仮説検定とt分布の裾

t検定を実行するときは、検定統計量がt分布から予想されるよりも極端な値であるかどうかを確認します。

両側検定の場合、分布の両側の裾を調べます。下の図3は、両側検定の決定プロセスを示しています。曲線は、自由度21のt分布です。α = 0.05/2 = 0.025となるt分布の値は2.080です。両側検定の場合、検定統計量が参照値の絶対値よりも大きい場合は、帰無仮説を棄却します。検定統計値が下側または上側の裾のいずれかにある場合、帰無仮説を棄却します。検定統計量が2つの参照線内にある場合、帰無仮説を棄却できません。

図3:両側検定の決定プロセス

片側検定の場合、分布の片側のみを調べます。例えば、以下の図4は、片側検定の決定プロセスを示しています。曲線は、自由度21のt分布です。片側検定の場合、α = 0.05となるt分布の値は1.721です。検定統計量が参照値よりも大きい場合は、帰無仮説を棄却します。検定統計量が参照線より下にある場合、帰無仮説を棄却できません。

図4:片側検定の決定プロセス

t分布表の使い方

ほとんどの人は、ソフトウェアを使用してt検定に必要な計算を実行します。しかし、多くの統計書はまだt分布表を載せているため、表の使い方を理解しておくと役立つ場合があります。一般的なt分布表の使用方法について以下のステップで説明します。

  1. 表が両側検定用か片側検定用かを特定します。次に、片側検定を行うか両側検定を行うかを決定します。t分布表の列は、さまざまな有意水準に対応します。
    片側検定用のテーブルでも、両側検定に使用できます。両側検定にα = 0.05を設定して片側検定の表しかない場合は、α = 0.025の列を使用してください。
  2. データの自由度を特定します。t分布表の各行は、異なる自由度に対応しています。ほとんどの表は、自由度30までであり、そこで止まっています。表は、標本サイズが大きい場合にz分布を使用することを前提としています。
  3. 表内で有意水準αと自由度が交差するセルを見つけます。それがt分布値です。統計量をt分布値と比較し、適切な結論を出します。