独立性のカイ2乗検定

独立性のカイ2乗検定とは？

独立性のカイ2乗検定は、2つのカテゴリカル変数または名義尺度変数が関連している可能性が高いかどうかを判断するために使用される統計的仮説検定です。

どんな時にこの検定を使用しますか？

2つのカテゴリカル変数の値の度数がある場合に、検定を使用できます。

頻度数の表がある場合に、検定を使用できますか？

はい。頻度数の値の入った表しかない場合でも、検定を使用できます。

独立性のカイ2乗検定の使用

独立性のカイ2乗検定は、2つの変数が関連している可能性が高いかどうかをチェックします。2つのカテゴリカル変数または名義尺度変数の度数があるとします。また、2つの変数は関連していないという考えがあるとします。検定は、私たちの考えがもっともらしいかどうかを判断する方法を提供します。

以下のセクションでは、検定に必要なもの、検定の実行方法、結果の解釈、統計学的詳細、およびp値の解釈について説明します。

必要なものは？

独立性のカイ2乗検定では、2つの変数が必要です。私たちは、変数は関連していないと考えているとします。いくつかの例を紹介します。

映画ジャンルのリストがあるとします。これが1つ目の変数です。2つ目の変数は、それらのジャンルの常連客が劇場でスナックを購入したかどうかです。私たちの考え（統計用語の帰無仮説）は、人々が見た映画の種類と、人々がスナックを購入したかどうかは無関係であるというものです。映画館の所有者は、購入するスナックの数を見積もりたいと考えています。映画の種類とスナックの購入が無関係である場合、映画の種類がスナックの販売に影響を与える場合よりも、購入数の見積もりが簡単になります。
動物病院には、患畜と見なされる犬種のリストがあります。2つ目の変数は、飼い主がドライフード、缶詰、または混合物を与えるかどうかです。私たちの考えは、犬種と飼料の種類は無関係であるということです。これが事実である場合、動物病院は犬種を考慮せずに犬の総数のみに基づいて飼料を注文することができます。

妥当な検定を行うには、次が必要です。

対象の母集団からの単純無作為抽出した標本のデータ値。
2つのカテゴリカル変数または名義尺度変数。カテゴリの組み合わせを定義する連続変数に対して独立性検定を使用しないでください。ただし、2つのカテゴリカル変数の組み合わせの度数は連続変数になります。
2つの変数の水準の組み合わせごとに、少なくとも5つの期待値が必要です。どれか1つの組み合わせが5つ未満の場合、検定結果は信頼できません。

独立性のカイ2乗検定の例

映画館のスナックの例を詳しく見てみましょう。映画館で600人のデータを収集するとします。一人一人について、彼らが見た映画の種類とスナックを買ったかどうかを把握しています。

次の質問に答えることから始めます。独立性のカイ2乗検定は、映画の種類とスナックの購入との関係を評価するために適切な方法でしょうか？

私たちの劇場で映画を見た600人の単純無作為抽出された標本があります。これは要件を満たしています。
私たちの変数は、映画の種類とスナックを購入したかどうかです。両方の変数はカテゴリカルです。これは要件を満たしています。
最後の要件では、2つの変数の組み合わせごとに5つを超える期待値が必要です。これを確認するには、映画の種類ごとの合計数と、スナックを購入したかどうかの合計数を知る必要があります。現時点ではこの要件を満たしていると想定していますが、後で確認します。

実際に妥当な手法を選択したようです（各組み合わせで5つを超える値が期待されることを確認する必要があります）。

分割表に要約されたデータは次のとおりです。

表1：映画スナックデータの分割表

映画の種類	スナックあり	スナックなし
アクション	50	75
コメディー	125	175
ファミリー	90	30
ホラー	45	10

先に進む前に、各カテゴリごとに5つの期待値という仮定を確認しましょう。データには、映画の種類とスナックの各組み合わせで5つより大きい度数があります。ところで、映画の種類とスナックの購入が独立している場合、期待度数はいくつでしょうか？

期待値を計算する

映画とスナックの組み合わせごとの期待値を計算するには、最初に行と列の合計が必要です。これを以下に示します。

表2：行と列の合計を含む映画スナックデータの分割表

映画の種類	スナックあり	スナックなし	行合計
アクション	50	75	125
コメディー	125	175	300
ファミリー	90	30	120
ホラー	45	10	55
列合計	310	290	全体合計 = 600

映画とスナックの組み合わせごとの期待値は、行と列の合計に基づいています。行の合計に列の合計を掛けてから、全体合計で除算します。これにより、表内の各セルの期待値がわかります。例えば、アクション-スナックセルの場合、次のようになります。

$\frac{125\times310}{600} = \frac{38,750}{600} = 65$

答えを最も近い整数に四捨五入しました。映画の種類とスナックの購入に関係がなければ、65人がスナックと共にアクション映画を見たと予想されます。

映画とスナックの組み合わせごとの実測値と期待値は次のとおりです。以下の表3の各セルでは、期待値が実測値の下に太字で表示されています。期待値は、最も近い整数に四捨五入されます。

表3：映画とスナックデータに関する実測値と期待値を比較した分割表

映画の種類	スナックあり	スナックなし	行合計
アクション	50 65	75 60	125
コメディー	125 155	175 145	300
ファミリー	90 62	30 58	120
ホラー	45 28	10 27	55
列合計	310	290	全体合計 = 600

ソフトウェアを使用する場合、これらの計算値は「期待値」、「期待セル度数」、または同様の用語でラベル付けされます。

データの期待値はすべて5を超えているため、独立性検定を適用するための要件を満たしています。

検定統計量を計算する前に、分割表をもう一度見てみましょう。期待値の算出は、行と列の合計を使用します。各セルを見ると、期待値の一部は実測値に近いことがわかりますが、他の期待値のほとんどは近くありません。映画の種類とスナックの購入に関係がない場合、実測値と期待値は同じくらいになります。関係がある場合、実測値と期待値は異なります。

期待値の算出でよくある間違いは、全体合計をセルの数で単純に割ることです。私たちの映画データの場合、これは600 / 8 = 75です。これは正しくありません。行の合計と列の合計がわかっています。これらは固定されており、データを変更することはできません。期待値は、全体合計だけでなく、行と列の合計に基づいています。

検定の実施

検定統計量を計算する際の基本的な考え方は、データにある行と列の合計を前提として、実測値と期待値を比較することです。まず、映画とスナックの組み合わせごとに、実測値と期待値との差を計算します。次にその差を2乗します。2乗することで、期待値が実測値よりも少ない組み合わせと、期待値が実測値よりも多い組み合わせに同じ重要度が与えられます。次に、各組み合わせの期待値で除算します。映画とスナックの組み合わせごとに、これらの値を合計します。これにより検定統計量が算出されます。

この例のデータを使用して、実際に見ていく方がはるかに簡単です。以下の表4は、小数点以下2桁まで示された各映画とスナックの組み合わせの計算過程を示しています。

表4：検定統計量を計算するための準備

映画の種類	スナックあり	スナックなし
アクション	実測値：50 期待値：64.58	実測値：75 期待値：60.42
アクション	差：50 – 64.58 = -14.58 2乗差：212.67 期待値で除算：212.67/64.58 = 3.29	差：75 - 60.42 = 14.58 2乗差：212.67 期待値で除算：212.67/60.42 = 3.52
コメディー	実測値：125 期待値：155	実測値：175 期待値：145
コメディー	差：125 – 155 = -30 2乗差：900 期待値で除算：900/155 = 5.81	差：175 – 145 = 30 2乗差：900 期待値で除算：900/145 = 6.21
ファミリー	実測値：90 期待値：62	実測値：30 期待値：58
ファミリー	差：90 – 62 = 28 2乗差：784 期待値で除算：784/62 = 12.65	差：30 – 58 = -28 2乗差：784 期待値で除算：784/58 = 13.52
ホラー	実測値：45 期待値：28.42	実測値：10 期待値：26.58
ホラー	差：45 – 28.42 = 16.58 2乗差：275.01 期待値で除算：275.01/28.42 = 9.68	差：10 – 26.58 = -16.58 2乗差：275.01 期待値で除算：275.01/26.58 = 10.35

最後に、検定統計量を取得するために、各セルの最後の行の数値を足し合わせます。

$3.29 + 3.52 + 5.81 + 6.21 + 12.65 + 13.52 + 9.68 + 10.35 = 65.03$

判断を下すために、検定統計量をカイ2乗分布の値と比較します。この評価には、次の5つのステップが含まれます。

2つの変数が実際には独立しているのに、独立していないと結論付けるリスクを決定します。映画データについては、データ収集の前に、2つの変数（映画の種類とスナックの購入）が実際には独立しているのに独立していないと結論づけるリスクを5％とすることに決定しました。統計的に言えば、有意水準αを0.05に設定します。
検定統計量を計算します。上記の通り、検定統計量は65.03です。
自由度と有意水準に基づいて、カイ2乗分布から棄却限界値を見つけます。これは、2つの変数が独立している場合に予想される値です。
自由度は、行数と列数によって異なります。自由度（df）は次のように計算されます：
$\text{df} = (r-1)\times(c-1)$

計算式では、r は分割表の行数、c は分割表の列の数です。この例では、行が映画の種類、列がスナックの購入で、次のようになります：
$\text{df} = (4-1)\times(2-1) = 3\times1 = 3$

α = 0.05かつ自由度3のカイ2乗値は7.815です。
検定統計量（65.03）の値をカイ2乗値と比較します。65.03> 7.815であるため、映画の種類とスナックの購入は独立しているという考えを棄却します。

映画の種類とスナックの購入の間には、何らかの関係があると結論付けます。映画館の所有者は、上映されている映画の種類に関係なく、購入するスナックの数を見積もることができません。代わりに、所有者はスナックの購入を見積もるときに上映される映画の種類について考える必要があります。

映画の種類がスナックの購入の 原因となっている と結論付けることはできないことに注意が必要です。独立性検定では、関係があるかどうかだけがわかります。一方の変数がもう一方の変数の原因となっているかはわかりません。

結果の解釈

グラフを使って、検定とその結果を理解してみましょう。

以下の横並びのグラフは、実測値を青で、期待値をオレンジで示しています。度数は棒グラフの上側に表示されています。黄色のボックスは、映画の種類とスナックの購入の合計を示しています。これらの合計は、期待値を計算するために必要です。

図1：さまざまな映画の種類における期待値と実測値を示す棒グラフ

ホラー映画における期待値と実測値を比較します。期待よりも多くの人がスナックを購入し、期待よりも少ない人がスナックを購入しないことを選択したことがわかります。

4種類の映画すべてを見て、人々がスナックを購入したかどうかを見ると、ほとんどの組み合わせで実測値と期待値の間にかなり大きな違いがあることがわかります。独立性検定は、実際のデータが、2つの変数が独立している場合に見られる期待値に「十分に近い」かどうかを確認します。統計的検定を実行しなくても、ほとんどの人は2つの変数が独立していないと言うでしょう。統計的検定は、判断を下すための一般的な方法を提供するため、誰もがデータに対して同じ判断を下すことができます。

以下のグラフは、別の可能なデータセットを示しています。このデータセットでは、映画の種類とスナックの購入の行と列の合計がまったく同じですが、スナックの購入データのはい/いいえの分割は異なります。

図2：異なる標本データに対する期待値と実測値を示す棒グラフ

紫色の棒グラフは、このデータの実際の度数を示しています。オレンジ色の棒グラフは、期待度数を示しています。これは、元のデータセットと同じです。行の合計と列の合計が同じであるため、期待度数は同じになります。上のグラフを見ると、ほとんどの人は映画の種類とスナックの購入は独立していると考えます。この新しいデータを使用して独立性のカイ2乗検定を実行すると、検定統計量は0.903になります。自由度がまだ3であるため、カイ2乗値は7.815のままです。0.903は7.815以下なので、独立しているという考えを棄却することはできません。映画館の所有者は、上映されている映画の種類に関係なく、購入するスナックの数を見積もることができます。

統計学的詳細

統計用語を使用して、映画-スナックのデータと独立性のカイ2乗検定を見てみましょう。

私たちの帰無仮説は、映画の種類とスナックの購入は独立しているというものです。帰無仮説は次のように記述されます。

$H_0: \text{映画の種類とスナックの購入は独立しています}$

対立仮説はその反対です。

$H_a: \text{映画の種類とスナックの購入は独立していません}$

検定統計量を計算する前に、期待度数を計算します。これは次のように記述されます。

$E_{ij} = \frac{R_i\times{C_j}}{N}$

この計算式の対象は、分割表の i x j 番目のセルです。つまり、表の i 行と j 列のセルです。例えば、E₁₁ は、最初の行と最初の列のセルの期待度数です。この式では、R_i が i 行目の合計を示し、C_j が j 行目の列の合計を示します。全体の標本サイズは N です。

以下の計算式を使用して検定統計量を算出します。

$Σ^n_{i,j=1} \frac{(O_{ij}-E_{ij})^2}{E_{ij}}$

上式は、n 個の行と列の組み合わせから成っています。Σ記号は、各組み合わせの計算を合計することを意味します。（表4から始まる、映画-スナックの例でこれと同じ手順を実行しました。）この計算式では、O_ij が ij 番目の組み合わせの観測度数を示し、E_ij がその組み合わせの期待度数を示しています。映画-スナックの例では、4つの行と2つの列があるため、8つの組み合わせがあります。

次に、検定統計量を、選択した有意水準およびデータの自由度に対応するカイ2乗分布の棄却限界値と比較します。映画-スナックのデータの例では、α = 0.05に設定し、自由度は3でした。映画-スナックのデータの場合、カイ2乗値は次のように記述されます。

$χ_{0.05,3}^2$

この比較から可能な2つの結果があります。

検定統計量はカイ2乗値よりも小さくなります。したがって、独立しているという仮説を棄却することはできません。映画-スナックの例では、映画館の所有者は、人が見る映画の種類とスナックを買うかどうかは関係がないという前提で話を進めることができます。
検定統計量はカイ2乗値よりも大きくなります。したがって、独立しているという仮説を棄却します。映画-スナックの例では、映画館の所有者は、人が見る映画の種類とスナックを買うかどうかは関係がないという前提を置くことはできません。

p値について理解する

カイ2乗分布のグラフを使用して、p値をよりよく理解しましょう。検定統計量が分布で棄却限界値よりも極端な値をとっているかどうかを確認しています。下のグラフは、自由度3のカイ2乗分布を示しています。これは、7.815の値がデータの95％をどのように「カットオフ」するかを示しています。自由度3のカイ2乗分布からのデータのうち、7.815より大きいのはわずか5％です。

図3：自由度3のカイ2乗分布のグラフ

次の分布グラフは、結果を示しています。検定統計量が「裾」のどれだけ遠くにあるかがわかります。実際、このスケールでは、分布曲線は検定統計量と交差する点でゼロになっているように見えます。これはゼロではありませんが、ゼロに非常に近くなっています。このような状況が偶然に発生する可能性は非常に低いと結論付けます。映画の種類とスナックの購入との間に本当に関係がない場合、映画ファンからこのような結果を得ることは起こりそうにありません。

図4：検定統計量をプロットした自由度3のカイ2乗分布のグラフ

統計ソフトウェアは、検定のp値を示します。これは、帰無仮説が真であると仮定したときに、同じサイズの別の標本の検定統計量が、現在の標本の検定統計量よりも極端な値になる可能性です。これを手計算で算出するのは困難です。上記の分布の場合、検定統計量が正確に7.815の場合、p値は0.05になります。検定統計量が65.03の場合、p値は非常に小さくなります。この例では、ほとんどの統計ソフトウェアはp値を「p < 0.0001」とレポートします。これは、別の無作為標本の検定統計量がより極端な値になる可能性が、（帰無仮説が正しいと仮定したときに）10,000回に1回未満であることを意味します。