適合度のカイ2乗検定

適合度のカイ2乗検定とは?

適合度のカイ2乗検定は、変数がある特定の分布に由来する可能性が高いかどうかを判断するために使用される統計的仮説検定です。これは、標本データが母集団全体を代表しているかどうかを評価するためによく使用されます。

どんな時にこの検定を使用しますか?

カテゴリカル変数の値の度数がある場合に、検定を使用できます。

この検定はPearsonのカイ2乗検定と同じですか?

はい。

適合度のカイ2乗検定の使用

適合度のカイ2乗検定は、標本データが特定の理論分布からのものである可能性が高いかどうかをチェックします。データ値の集合と、データ値がどのように分布しているかについての考えがあるとします。この検定は、データ値が私たちの考えに「十分に」適合しているかどうか、または私たちの考えが疑わしいかどうかを判断する方法を提供します。

必要なものは何でしょう?

適合度検定には、1つの変数が必要です。また、その変数の分布についての考え、つまり仮説も必要です。いくつかの例を紹介します。

  • キャンディの袋があり、袋ごとに5つのフレーバーが入っています。袋には、各フレーバーが同数含まれている必要があります。検定したいのは、各袋の5つのフレーバーの割合が同じであるということです。
  • 子供たちのスポーツチームのグループに、経験の度合いが違う(豊富な経験がある、ある程度の経験がある、経験がない)子供たちをチーム間で均等に配分したいと考えています。リーグのプレーヤーの20%が豊富な経験があり、65%がある程度の経験があり、15%が経験がないプレーヤーであることがわかっているとします。各チームには、経験の度合いが違う子供たちが、リーグ全体と同じ割合で在籍していることを検定したいと考えています。

適合度検定をデータセットに適用するには、次のものが必要です。

  • 全母集団から単純無作為抽出したデータ値。
  • カテゴリカルデータまたは名義尺度データ。適合度のカイ2乗検定は、連続尺度データには適していません。
  • 観測された各データカテゴリで少なくとも5つの値が期待されるほど十分に大きいデータセット。

適合度のカイ2乗検定の例

例としてキャンディの袋を使用します。10袋の無作為標本を収集します。各袋には100個のキャンディが入っており、5つのフレーバーがあります。私たちの仮説は、各袋の5つのフレーバーの割合が同じであるというものです。

次の項目に答えることから始めます。適合度のカイ2乗検定は、キャンディ袋の中にあるフレーバーの分布を評価するために適切な方法でしょうか?

  • 単純無作為抽出した10袋のキャンディの標本があります。これは要件を満たしています。
  • 私たちのカテゴリカル変数はキャンディのフレーバーです。10袋のキャンディにおいて、各フレーバーの度数が定まります。これは要件を満たしています。
  • 各袋には100個のキャンディが入っています。各袋には5種類のフレーバーのキャンディが入っています。各フレーバーの数は同じであると期待しています。これは、各袋に各フレーバーのキャンディが100 / 5 = 20個含まれることを期待していることを意味します。10袋の標本の場合、各フレーバーのキャンディが10 x 20 = 200個含まれていることが期待されます。これは、各カテゴリごとに5つという期待値の要件を超えています。

上記の回答に基づくと答えは、はい、です。適合度のカイ2乗検定は、キャンディ袋の中にあるフレーバーの分布を評価するための適切な方法です。

下の図1は、10袋すべてのキャンディのフレーバーの度数の合計を示しています。

図1:10袋すべてのキャンディのフレーバーの度数の棒グラフ

検定するまでもなく、各フレーバーの数が同じではないことがわかります。期待される200個より少ないフレーバーもあれば、多いフレーバーもあります。しかし、フレーバーの割合はどれだけ異なっているのでしょうか?多くの袋で各フレーバーの個数が同じであると結論付けられるほど、個数は「十分に近い」でしょうか?それとも、この結論を引き出すには個数が異なりすぎているのでしょうか?言い換えると、私たちのデータ値は、各フレーバーのキャンディの個数が同じであるという考えに「十分に良く」あてはまっているでしょうか。

これを判断するために、実際の個数と期待する個数の差を計算します。次に、期待よりも個数の少ないフレーバーに、期待よりも個数の多いフレーバーと同じ重要度を与えるために、差を2乗します。次に、この平方を期待個数で割り、それらの値を合計します。これにより検定統計量が算出されます。

これらのステップは、この例の数値を使用するとはるかに理解しやすくなります。

まず、袋ごとに各フレーバーの数が同じ場合に期待される値をリストします。ここでは、期待される値を10袋のキャンディーに対して200と計算しました。

表1:キャンディの各フレーバー個数の実測値と期待値の比較

フレーバーキャンディの数(10袋)期待されるキャンディの数
リンゴ180200
ライム250200
チェリー120200
チェリー225200
グレープ225200

これで、データで観察したものと期待したものの差がわかりました。以下の表2の最後の列は、この差を示しています。

表2:フレーバーごとのキャンディの個数の観測値と期待値の差

フレーバーキャンディの数(10袋)期待されるキャンディの数観測値-期待値
リンゴ180200180-200 = -20
ライム250200250-200 = 50
チェリー120200120-200 = -80
オレンジ225200225-200 = 25
グレープ225200225-200 = 25

いくつかの差は正であり、いくつかは負です。それらを単純に合計すると、ゼロになります。代わりに、差を2乗します。こうすることで、期待値よりも個数の少ないキャンディのフレーバーと、期待値よりも個数の多いキャンディのフレーバーに等しい重要度を与えます。

表3:各フレーバーのキャンディにおける観測値と期待値の2乗差の計算

フレーバーキャンディの数(10袋)期待されるキャンディの数観測値-期待値2乗差
リンゴ180200180-200 = -20400
ライム250200250-200 = 502500
チェリー120200120-200 = -806400
オレンジ225200225-200 = 25625
グレープ225200225-200 = 25625

次に、2乗差を期待値で割ります。

表4:各フレーバーのキャンディの個数の2乗差/期待値の計算

フレーバーキャンディの数(10袋)期待されるキャンディの数観測値-期待値2乗差2乗差/期待値
リンゴ180200180-200 = -20400400 / 200 = 2
ライム250200250-200 = 5025002500 / 200 = 12.5
チェリー120200120-200 = -8064006400 / 200 = 32
オレンジ225200225-200 = 25625625 / 200 = 3.125
グレープ225200225-200 = 25625625 / 200 = 3.125

最後に、一番右の列の数値を足し合わせて、検定統計量を計算します。

$ 2 + 12.5 + 32 + 3.125 + 3.125 = 52.75 $

結論を出すために、検定統計量をカイ2乗分布の棄却限界値と比較します。このアクティビティには、次の4つのステップが含まれます。

  1. まず、標本の観測値に基づいて誤った結論を導き出すリスクを、どれだけ引き受けるかを決定します。キャンディのデータでは、データを収集する前に、母集団全体にわたって各袋のフレーバーの個数が実際には等しいときに、等しくないと結論付けるリスクを5%とることを決定します。統計的に言えば、有意水準αを0.05に設定します。
  2. 検定統計量を計算します。検定統計量は52.75でした。
  3. 有意水準に基づいて、カイ2乗分布から理論値を見つけます。理論値は、袋に各フレーバーのキャンディが同じ数だけ含まれている場合に期待される値です。

    この値を見つけるには、有意水準に加えて自由度も必要です。適合度検定の場合、これはカテゴリの数より1つ少なくなります。キャンディには5つのフレーバーがあるため、5 – 1 = 4の自由度があります。

    α = 0.05および自由度4のカイ2乗値は9.488です。
  4. 検定統計量(52.75)の値をカイ2乗値と比較します。52.75 > 9.488であるため、キャンディのフレーバーの割合が等しいという帰無仮説を棄却します。

 

母集団全体にわたってキャンディの袋の5つのフレーバーの個数が等しいわけではない、という実際的な結論付けを行います。元のデータを見れば、これは理に適っています。お気に入りのフレーバーがライムの場合、他のフレーバーよりもお気に入りのフレーバーが多くなりそうです。お気に入りのフレーバーがチェリーの場合、チェリーのキャンディの数は期待より少なくなって不満に思うことになりそうです。

結果を理解する

いくつかのグラフを使って、検定とその結果を理解してみましょう。

データの単純棒グラフは、キャンディのフレーバーの観測度数を示しています。

 

図2:キャンディのフレーバーの観測値の棒グラフ

別の単純棒グラフは、200というフレーバーごとの期待値を示しています。これは、キャンディの袋の各フレーバーの個数が同じである場合に見られるチャートになります。

図3:各フレーバーの期待値の棒グラフ

下の横並びのグラフでは、実際に観察されたキャンディの個数を青色で示しています。オレンジ色の棒は、期待個数を示しています。期待よりも多くの個数を持つフレーバーもあれば、少ない個数を持つフレーバ―もあることがわかります。

図4:キャンディの実測値と期待値を比較する棒グラフ

統計的検定は、差を定量化する方法です。私たちの標本からの実際のデータは、袋の母集団全体でフレーバーの割合が等しいと結論付けることを期待されるものに「十分に近い」でしょうか? それとも近くはないのでしょうか?統計的検定を行わなくても、ほとんどの人は上のキャンディのデータから、データが「十分に近い」とは言いません。

代わりに、データが下の図5の例のようになったらどうでしょうか? 紫色のバーは観測度数を示し、オレンジ色のバーは期待度数を示します。データが「十分に近い」と言う人もいれば、そうではないと言う人もいるでしょう。統計的検定は、判断を下すための一般的な方法を提供します。統計的検定に基づくと、すべての人が一連のデータ値に対して同じ判断を下すことができます。

図5:別のデータセットの例を使用して期待値と実測値を比較した棒グラフ

統計の詳細

統計用語を使用して、キャンディのデータと適合度のカイ2乗検定を見てみましょう。この検定は、Pearsonのカイ2乗検定とも呼ばれます。

私たちの帰無仮説は、袋ごとにフレーバーの割合が同じであるというものです。フレーバーは5つです。帰無仮説は次のように記述されます。

$ H_0: p_1 = p_2 = p_3 = p_4 = p_5 $

上式では、各フレーバーの割合にpを使用しています。100個詰めの袋に、5つのフレーバーのキャンディが同じ数だけ含まれている場合、各フレーバーが20個づつ袋に含まれていることになります。各フレーバーの割合は20/100 = 0.2です。

対立仮説は、割合の少なくとも1つが他の割合と異なるというものです。これは次のように記述されます。

$ H_a: at\ least\ one\ p_i\ not\ equal $

割合が等しいことを検定しない場合もあります。このページの上部にある子供のスポーツチームの例をもう一度見てください。この例の場合、帰無仮説と対立仮説は次の通りです。

$ H_0: p_1 = 0.2, p_2 = 0.65, p_3 = 0.15 $

$ H_a: at\ least\ one\ p_i\ not\ equal\ to\ expected\ value $

単一の母集団パラメーターを含む他の仮説とは異なり、数式だけを使用することはできません。仮説を記述するには、記号だけでなく言葉も使用する必要があります。

以下の計算式を使用して検定統計量を計算します。

$ \sum^n_{i=1} \frac{(O_i-E_i)^2}{E_i} $

上記の計算式は、n個のグループを含みます。$ \sum $記号は、それぞれのグループの計算を足し算することを意味します。グループごとに、キャンディの例と同じ手順を実行します。この計算式では、グループの観測値をOiで示し、期待値をEiで示しています。

次に、検定統計量を、選択した有意水準(α水準とも呼ばれます)で、データと同じ自由度を持つカイ2乗値と比較します。キャンディのデータの例では、α = 0.05と設定し、自由度は4でした。キャンディのデータの場合、カイ2乗値は次のように記述されます。

$ χ²_{0.05,4}$

私たちの比較から可能な2つの結果があります。

  • 検定統計量はカイ2乗値よりも低くなっています。したがって、割合が等しいという仮説を棄却することはできません。全母集団のキャンディ袋に、各フレーバーが同じ数だけ入っていると結論付けます。割合が等しいことへの適合度は「十分に良く」なっています。
  • 検定統計量はカイ2乗値よりも大きくなります。したがって、割合が等しいという仮説を棄却します。全母集団のキャンディ袋に、各フレーバーが同じ数だけ入っていると結論付けることはできません。割合が等しいことへの適合度は「不十分」になっています。

カイ2乗分布のグラフを使用して、検定結果をよりよく理解しましょう。検定統計量が棄却限界値よりも分布の裾のほうにあるかどうかを確認しています。以下の分布は、自由度4のカイ2乗分布を示しています。これは、9.488の棄却限界値がデータの95%をどのように「カットオフ」するかを示しています。データの5%のみが9.488を超えています。

図6:自由度4のカイ2乗分布

次の分布プロットには、計算結果が含まれています。52.75の点線で表され、検定統計量が「裾」のどれだけ遠くにあるかを確認できます。実際、このスケールでは、点線と交差する場所で曲線はゼロになっているように見えます。これはゼロではありませんが、ゼロに非常に近くなっています。このような状況が偶然に発生する可能性は非常に低いと結論付けます。キャンディ袋の真の母集団で各フレーバーの度数が等しい場合、10袋の無作為標本から集めた結果がこのようになることはまずありえません。

図7:検定統計量をプロットした自由度4のカイ2乗分布

ほとんどの統計ソフトウェアは、検定のp値を示します。これは、帰無仮説が正しいと仮定して、同様の標本で検定統計量がより極端な値になる可能性です。手計算でp値を計算することは困難です。上の図では、検定統計量が正確に9.488の場合、p値はp = 0.05になります。検定統計量が52.75の場合、p値は非常に小さくなります。この例のような場合、ほとんどの統計ソフトウェアはp値を「p < 0.0001」とレポートします。これは、フレーバーの度数が等しいという帰無仮説が真であると仮定した時に、10袋のキャンディの別の標本で検定統計量がより極端な値になる可能性が、10,000回に1回未満であることを意味します。