카이제곱 독립성 검정 예제

카이제곱 독립성 검정이란?

카이제곱 독립성 검정은 두 가지 범주형 또는 명목형 변수가 관련될 가능성 여부를 확인하는 데 사용되는 통계적 가설 검정입니다.

카이제곱 적합도 검정은 언제 사용하는가?

두 범주형 변수 값의 개수가 있을 때 사용할 수 있는 검정입니다.

테이블에 빈도 개수가 있는 경우 이 검정을 사용할 수 있는가?

예. 빈도 개수를 보여주는 테이블만 있는 경우에 이 검정을 사용할 수 있습니까?

카이제곱 독립성 검정 사용

카이제곱 독립성 검정은 두 변수가 관련될 가능성 여부를 확인합니다. 여기에 범주형 또는 명목형 변수 2개에 대한 개수 값이 있습니다. 또한 두 변수가 관련이 없다고 가정합니다. 검정을 통해 이러한 가정이 타당한지 여부를 판정할 수 있습니다.

아래 섹션에서 검정에 필요한 사항, 검정 수행 방법, 결과 이해, 통계 세부 정보 및 p 값 이해에 대해 설명합니다.

검정에 필요한 사항은 무엇인가?

카이제곱 독립성 검정에는 두 개의 변수가 필요합니다. 기본 전제는 변수들이 서로 관련이 없다는 것입니다. 다음은 몇 가지 예입니다.

  • 여기에 영화 장르 목록이 있고, 영화 장르가 첫 번째 변수입니다. 두 번째 변수는 장르별로 관객들이 영화관에서 간식류를 구입했는지 여부입니다. 기본 전제(또는 통계 용어로 귀무가설)는 영화 장르와 관람객들의 간식류 구입 여부 사이에는 관련성이 없다는 것입니다. 영화관 사장은 영화관에 간식류 비축량을 추정하려고 합니다. 영화 장류와 간식류 구매 간에 관련이 없는 경우, 영화 장르가 간식류 판매에 영향을 미칠 경우보다 더 간단히 추정할 수 있습니다.
  • 어느 동물병원에 병든 개로 간주하는 개 품종의 목록이 있습니다. 주인이 건조 식품 또는 통조림, 아니면 두 가지 혼합 중 어떤 음식을 개에게 먹이는지 여부가 두 번째 변수입니다. 기본 전제는 개 품종과 음식의 종류 사이에 관련이 없다는 것입니다. 이 전제가 사실일 경우, 동물병원에서는 품종을 고려하지 않고 개의 총 수만을 기준으로 식품을 주문할 수 있습니다.

유효한 검정을 위해서는 다음이 필요합니다.

  • 관심 대상 모집단의 단순 랜덤 표본에 해당하는 데이터 값
  • 범주형 또는 명목형 변수 두 개. 범주 조합을 정의하는 연속형 변수에는 독립성 검정을 사용하지 마십시오. 하지만 두 범주형 변수 조합의 개수는 연속형입니다.
  • 두 변수 수준들의 각 조합에 대해 최소 5개의 기대값이 필요합니다. 조합별 기대값이 5개 미만이면 검정 결과를 신뢰할 수 없습니다.

카이제곱 독립성 검정 예제

영화 간식류 예제를 더 자세히 살펴보겠습니다. 영화관에서 관람객 600명의 데이터를 수집한다고 가정해보십시오. 관람객별로 감상한 영화 장르와 간식류 구입 여부를 알고 있습니다.

먼저 한 가지 질문의 답을 찾아 보겠습니다. 카이제곱 독립성 검정이 영화 장르와 간식류 구매 간 관계를 평가하기에 적절한 방법일까요?

  • 현재 영화관에서 영화를 본 관람객 600명의 단순 랜덤 표본이 있습니다. 이 요구사항을 충족합니다.
  • 여기서 변수는 영화 장르와 간식류 구입 여부입니다. 두 변수는 모두 범주형입니다. 이 요구사항을 충족합니다.
  • 마지막 요구사항은 두 변수의 조합별로 5개 이상의 기대값에 대한 것입니다. 이를 확인하려면 영화 장르별 총 개수와 간식류 구입 또는 미구입 개수 총계를 알아야 합니다. 지금은 이 요구사항을 충족한다고 가정하고 나중에 확인하겠습니다.

실제로 유효한 방법을 선택한 것으로 보입니다. (여전히 조합별로 기대값이 5개 이상인지 확인해야 합니다)

다음은 분할표에 요약되어 있는 데이터입니다.

테이블 1: 영화 간식류 데이터에 대한 분할표

영화 장르간식류간식류 비구매
작업5075
코미디125175
가족9030
공포4510

다음 단계로 진행하기 전에 범주별로 5가지 기대값에 대한 가정을 확인해보겠습니다. 영화 장르-간식류 조합별로 5개 이상의 개수가 데이터에 있습니다. 그런데 영화 장르와 간식류 구매가 서로 독립적이라면 기대 개수가 몇 개일까요?

기대 개수 계산

각 영화-간식류 조합에 대한 기대 개수를 구하려면 먼저 아래 나온 행과 열 합계가 필요합니다.

테이블 2: 행 합계와 열 합계가 포함된 영화 간식류 데이터에 대한 분할표

영화 장르간식류간식류 비구매행 총계
작업5075125
코미디125175300
가족9030120
공포451055
열 총계310290전체 합계 = 600

각 영화-간식류 조합의 기대 개수는 행과 열 합계를 기준으로 합니다. 행 합계에 열 합계를 곱한 결과를 총계로 나눕니다. 그러면 테이블의 각 셀에 들어갈 기대 개수가 산출됩니다. 예를 들어 액션-간식류 셀에 해당하는 계산 결과는 다음과 같습니다.

$ \frac{125\times310}{600} = \frac{38,750}{600} = 65 $

정답을 가장 근접한 정수로 반올림했습니다. 영화 장르와 간식류 구입 사이에 관계가 없을 경우, 관람객 65명이 간식류를 구입하고 액션 영화를 관람한 것으로 기대합니다.

다음은 각 영화-간식류 조합에 대한 실제 개수와 기대 개수 사이입니다. 아래 테이블 3의 각 셀에서 실제 개수 아래 기대 개수가 굵게 표시되어 있습니다. 기대 개수는 가장 근접한 정수로 반올림했습니다.

테이블 3: 실제 개수 대비 기대 개수를 보여주는 영화 간식류 데이터에 대한 분할표

영화 장르간식류간식류 비구매행 총계
작업50
65
75
60
125
코미디125
155
175
145
300
가족90
62
30
58
120
공포45
28
10
27
55
열 총계310290전체 합계 = 600

소프트웨어를 사용할 때 계산된 값을 "기대값", "기대 셀 개수" 또는 몇몇 유사한 용어로 지칭합니다.

데이터에 대한 모든 기대 개수가 5를 초과하므로 독립성 검정 적용 요구사항을 충족합니다.

검정 통계량을 계산하기 전에 분할표를 다시 한 번 살펴보겠습니다. 기대 개수는 행과 열 합계입니다. 각 셀을 살펴보면, 기대 개수가 실제 개수에 근접한 셀도 몇 개 있지만 대부분은 그렇지 않음을 알 수 있습니다. 영화 장르와 간식류 구매 사이에 관련이 없으면 실제 개수와 기대 개수가 비슷할 것입니다. 그렇지 않고 상관 관계가 있다면 실제 개수와 기대 개수가 다릅니다.

기대 개수에서 흔히 발생하는 실수는 단순히 전체 총계를 셀 수로 나누는 것입니다. 영화 데이터의 경우, 이 값은 75(600 / 8 = 75)입니다. 이 계산은 올바르지 않습니다. 여기서 행의 합계와 열의 합계를 알고 있습니다. 모두 고정된 값으로 데이터에서 변동이 없습니다. 기대값은 전체 총계가 아닌 행과 열의 합계를 기준으로 합니다.

검정 수행

검정 통계량을 계산하는 기본 개념은 데이터에 있는 행과 열 합계를 고려하여 실제값과 기대값을 비교하는 것입니다. 먼저, 각 영화-간식류 조합에 대해 실제값과 기대값 사이 차이를 계산합니다. 다음으로, 구해진 차이를 제곱합니다. 제곱 연산은 실제값이 기대값보다 적은 조합과 실제값이 기대값보다 많은 조합에 동일한 중요도를 부여합니다. 이어서 조합에 대한 기대값으로 나눕니다. 각 영화-간식류 조합에 대해 산출된 값들을 합산합니다. 산출되는 결과가 검정 통계량입니다.

이 방법은 예제의 데이터를 사용하여 따르기 훨씬 쉽습니다. 아래 테이블 4는 각 영화-간식류 조합의 계산 결과를 소수 자릿수 두 자리까지 보여줍니다.  

테이블 4: 검정 통계량 계산 준비

영화 장르간식류간식류 비구매
작업실제값: 50
기대값: 64.58
실제값: 75
기대값: 60.42

차이: 50 – 64.58 = -14.58

차이 제곱값: 212.67

기대값으로 나누기: 212.67/64.58 = 3.29

차이: 75 – 60.42 = 14.58

차이 제곱값: 212.67

기대값으로 나누기: 212.67/60.42 = 3.52

코미디실제값: 125
기대값: 155
실제값: 175
기대값: 145

차이: 125 – 155 = -30

차이 제곱값: 900

기대값으로 나누기: 900/155 = 5.81

차이: 175 – 145 = 30

차이 제곱값: 900

기대값으로 나누기: 900/145 = 6.21

가족실제값: 90
기대값: 62
실제값: 30
기대값: 58

차: 90 – 62 = 28

차이 제곱값: 784

기대값으로 나누기: 784/62 = 12.65

차이: 30 – 58 = -28

차이 제곱값: 784

기대값으로 나누기: 784/58 = 13.52

공포실제값: 45
기대값: 28.42
실제값: 10
기대값: 26.58

차이: 45 – 28.42 = 16.58

차이 제곱값: 275.01

기대값으로 나누기: 275.01/28.42 = 9.68

차이: 10 – 26.58 = -16.58

차이 제곱값: 275.01

기대값으로 나누기: 275.01/26.58 = 10.35

마지막으로, 검정 통계량을 구하기 위해 각 셀의 마지막 행에 있는 숫자들을 합산합니다.

$ 3.29 + 3.52 + 5.81 + 6.21 + 12.65 + 13.52 + 9.68 + 10.35 = 65.03 $

결정을 내리기 위해 산출된 검정 통계량을 카이제곱 분포의 값과 비교합니다. 이 작업은 다음 5단계로 진행됩니다.

  1. 먼저 두 변수가 실제로 무관한데 서로 독립적이지 않다는 결론을 기꺼이 감수할 위험률을 정합니다. 영화 데이터의 경우, 데이터 수집 전에 두 변수인 영화 장르와 간식류 구입 여부가 실제로는 무관할 때 독립적이지 않다고 결론내릴 5%의 위험을 감수하기로 결정했습니다. 통계량 측면에서 유의 수준 α를 0.05로 설정합니다.
  2. 검정 통계량을 계산합니다. 위에서 보았듯이 검정 통계량은 65.03입니다.
  3. 정해진 자유도와 유의 수준을 기반으로 카이제곱 분포에서 임계값을 찾습니다. 이 값은 두 변수가 독립적일 때 기대값입니다.
  4. 자유도는 사용되는 행의 수와 열의 수에 따라 달라집니다. 자유도(df)의 계산식은 다음과 같습니다.
    $ \text{df} = (r-1)\times(c-1) $

    이 계산식에서 r은 분할표의 행 개수이고, c는 분할표의 열 개수입니다. 예제에서는 영화 장르를 행으로, 간식류 구입 여부를 열로 각각 사용하여 다음과 같은 계산식이 나옵니다.
    $ \text{df} = (4-1)\times(2-1) = 3\times1 = 3 $

    α = 0.05, 자유도 3에 해당하는 카이제곱 값은 7.815입니다.
  5. 검정 통계량(65.03) 값을 카이제곱 값과 비교합니다. 그런데 65.03 > 7.815이므로 영화 장르와 간식류 구매가 독립적이라는 가정을 기각합니다.

 

그리고 영화 장르와 간식류 구매 사이에 상관성이 존재한다는 결론을 내립니다. 영화관 사장은 상영하는 영화 장르가 무엇이든 간식류 구매량을 추정할 수 없습니다. 그 대신 간식류 구매량을 추정할 때 상영하는 영화 장르에 대해 생각해야 합니다.

유의할 점은 영화 장르가 간식류 구매의 원인이 된다고 결론내릴 수 없다는 것입니다. 독립성 검정을 통해서는 관계가 있는지 여부만 알 수 있습니다. 한 변수가 나머지 변수의 유발원이 되는지 여부는 확인되지 않습니다.

결과 이해

그래프를 사용하여 검정과 결과를 탐색해 보겠습니다.

아래 나란히 나온 차트는 실제 개수를 파란색으로, 기대 개수를 주황색으로 표시하여 보여줍니다. 개수는 막대 맨 위에 표시됩니다. 노란색 상자에는 영화 장르와 간식류 구입 총계가 나타납니다. 이러한 총계는 기대 개수를 구하는 데 필요합니다.

테이블 1: 다양한 영화 장르에 대한 기대 개수와 실제 개수를 보여주는 막대 차트

공포 영화의 기대 개수와 실제 개수를 비교합니다. 예상보다 많은 사람이 간식류를 샀고, 사지 않은 사람은 예상보다 적었음을 알 수 있습니다.

네 가지 영화 장르 전체와 관람객의 간식류 구입 여부를 살펴보면, 대부분의 조합에서 실제 개수와 기대 개수 사이에 상당히 큰 차이가 있음이 확인됩니다. 독립성 검정에서는 두 변수가 독립적일 때 실제 데이터가 기대 개수에 "충분히 근접"하는지 여부를 확인합니다. 통계적 검정을 수행하지 않고도 대부분 두 변수가 무관하지 않다고 말할 것입니다. 통계적 검정은 일반적인 의사결정 방법을 제공하여 누구나 데이터에 관해 동일한 결정을 내릴 수 있도록 해줍니다.

아래 차트는 가능한 다른 데이터 집합을 보여줍니다. 이 데이터 집합은 영화 장르와 간식류 구입에 해당하는 행과 열의 합계는 동일하지만 간식류 구입 데이터에서 예/아니오 구분은 다릅니다.

테이블 2: 다양한 표본 데이터를 사용한 기대 개수와 실제 개수를 보여주는 막대 차트

보라색 막대는 이 데이터의 실제 개수를 보여줍니다. 오렌지색 막대는 원래 데이터 집합에서와 동일한 기대 개수를 보여줍니다. 행 합계와 열 합계가 동일하므로 기대 개수가 동일합니다. 위 그래프를 보면 대부분 영화 장르와 간식류 구입이 서로 독립적이라고 생각할 것입니다. 새로운 데이터를 사용하여 카이제곱 독립성 검정을 수행할 경우 검정 통계량은 0.903입니다. 자유도가 여전히 3이기 때문에 카이제곱 값도 그대로 7.815입니다. 0.903 < 7.815이므로 독립성 가설을 기각하지 못합니다. 영화관 사장은 상영하는 영화 장르가 무엇이든 간식류 구매량을 추정할 수 있습니다.

통계 상세 정보

통계적 용어를 사용하여 영화-간식류 데이터와 카이제곱 독립성 검정을 살펴보겠습니다.

여기서 귀무가설은 영화 장르와 간식류 구입이 독립적이라는 것입니다. 귀무가설 표현식은 다음과 같습니다.

$ H_0: \text{Movie Type and Snack purchases are independent} $

대립가설은 반대입니다.

$ H_0: \text{Movie Type and Snack purchases are not independent} $

검정 통계량을 계산하기 전에 기대 개수를 구합니다. 그 표현식은 다음과 같습니다.

$ Σ_{ij} = \frac{R_i\times{C_j}}{N} $

i x j 분할표에 대한 계산식입니다. i개의 행과 j개의 열이 있는 테이블입니다. 예를 들어, E11은 첫째 행과 첫째 열의 셀에 해당하는 기대 개수입니다. 계산식에서 i번째 행에 해당하는 행 총계를 Ri로, j번째 행에 해당하는 열 총계를 Cj로 각각 표시합니다. 전체 표본 크기는 N입니다.  

아래 계산식을 사용하여 검정 통계량을 계산합니다.

$ Σ^n_{i,j=1} = \frac{(O_{ij}-E_{ij})^2}{E_{ij}} $

위 계산식에는 n 개의 행과 열 조합이 있습니다. Σ 기호는 각 조합에 대한 계산 결과의 합산을 의미합니다. (테이블 4에서 시작하여 영화-간식류 예제에서와 동일한 단계를 밟았습니다) 계산식에서 ij번째 조합에 대한 관측 개수를 Oij로, 조합에 대한 기대 개수를 Ei j로 각각 표시합니다. 영화-간식류 예제에서는 행이 4개, 열이 2개이므로 8개의 조합이 생성되었습니다.

그런 다음, 선택된 알파 값과 데이터 자유도에 해당하는 임계 카이제곱 값과 검정 통계량을 비교합니다. 예로 영화-간식류 데이터를 사용하며 α = 0.05로 설정하였으며 자유도는 3입니다. 영화-간식류 데이터에 대한 카이제곱 값은 다음과 같이 나타냅니다.

$ χ_{0.05,3}^2 $

여기 비교에서 가능한 결과는 두 가지입니다.

  • 검정 통계량이 카이제곱 값보다 작습니다. 이 경우에는 독립성 가설을 기각하지 못합니다. 영화-간식류 예제에서, 영화관 사장은 관람하는 영화 장르와 간식류 구매 여부 사이에 어떠한 관계도 없다는 가정 아래 운영할 수 있습니다.
  • 검정 통계량이 카이제곱 값보다 큽니다. 이 경우에는 독립성 가설을 기각합니다. 영화-간식류 예제에서, 영화관 사장은 관람하는 영화 장르와 간식류 구매 여부 사이에 어떠한 관계도 없다고 가정할 수 없습니다.

p 값 이해

p 값을 더 정확히 탐색하기 위해 카이제곱 분포의 그래프를 사용해보겠습니다. 검정 통계량이 분포에서 임계값보다 극단값에 가까울지 여부를 확인하려고 합니다. 아래 그림은 자유도 3의 카이제곱 분포를 보여줍니다. 7.815이라는 값이 데이터의 95%를 "절단"하는 양상을 보여주고 있습니다. 자유도 3인 카이제곱 분포의 데이터 중 5%만이 7.815보다 큽니다.

 

그래프 3: 자유도 3에 대한 카이제곱 분포

다음 분포 그래프에 결과가 나와 있습니다. 검정 통계량이 "꼬리 안"에서 얼마나 멀어지는지 알 수 있습니다. 실제로 이 척도를 사용하면 분포 곡선이 검정 통계량과 0에서 교차하는 것처럼 보입니다. 실제 그렇지는 않지만 0에 매우 근접합니다. 이러한 상황이 우연히 발생할 가능성이 매우 낮다는 결론을 내립니다. 만약 영화 장르와 간식류 구입 사이에 관계가 없다면 영화 관람객으로부터 수집한 결과를 볼 가능성은 극도로 낮습니다.

그림 4: 검정 통계량이 표시된 자유도 3에 대한 카이제곱 분포 그래프

통계 소프트웨어들은 검정에 대한 p 값을 표시합니다. 이는 귀무가설이 맞다고 가정할 때 유사한 동일한 크기의 다른 표본에서 현재 표본의 검정 통계량보다 더 극단적인 검정 통계량을 찾을 가능성입니다. 이 값을 수작업으로 계산하기는 어렵습니다. 위의 그림에서 검정 통계량이 정확히 7.815이면 p 값은 p=0.05입니다. 검정 통계량이 65.03일 때 p 값은 극도로 작습니다. 이 예제에서 대부분의 통계 소프트웨어에서 보고되는 p 값은 “p < 0.0001”입니다. 이는 다른 랜덤 표본을 사용한(귀무가설이 옳다고 가정) 검정 통계량보다 극단값을 찾을 가능성이 10,000 중 1회 미만임을 의미합니다.