카이제곱 적합도 검정

카이제곱 적합도 검정이란?

카이제곱 적합도 검정은 변수가 지정된 분포에서 추출될 가능성이 있는지 여부를 확인하는 데 사용되는 통계적 가설 검정입니다. 대개 표본 데이터가 전체 모집단을 대표하는지 평가하는 데 사용됩니다.

카이제곱 적합도 검정은 언제 사용할 수 있는가?

범주형 변수 값의 개수가 있을 때 사용할 수 있는 검정입니다.

Pearson의 카이제곱 검정과 동일한 검증인가?

예.

카이제곱 적합도 검정 사용

카이제곱 적합도 검정은 표본 데이터가 특정 이론적 분포에서 추출된 것인지 여부를 확인합니다. 여러 데이터 값들이 표집된 집합이 있고 데이터 값의 분포 양상에 대한 가정이 내려져 있습니다. 카이제곱 적합도 검정은 데이터 값이 가정에 "충분히" 적합한지 또는 가정에 의문점이 있는지 판별하는 방법을 제공합니다.

검정에 필요한 사항은 무엇인가?

적합도 검정에는 하나의 변수가 필요합니다. 또한 변수의 분포 양상에 대한 전제 또는 가설도 필요합니다. 다음은 몇 가지 예입니다.

  • 각 봉지마다 5가지 맛 캔디가 담긴 캔디 봉지가 있습니다. 각 봉지에 맛별로 동일한 개수의 캔디가 들어 있습니다. 검정하려는 가설은 봉지마다 담긴 5가지 맛의 비율이 같다는 것입니다.
  • 어린이 스포츠팀을 구성하는데 경험이 많은 선수, 경험이 약간 있는 선수, 경험이 없는 선수가 팀 전체에 고르게 분포되기를 원합니다. 리그 선수의 20%는 경험이 많고, 65%는 경험이 약간 있고, 15%는 경험이 없는 선수라는 사실을 알고 있다고 가정합니다. 검정하려는 가설은 각 팀에 경험이 많은 선수, 경험이 약간 있는 선수, 경험이 없는 선수가 동일한 비율로 분포되었다는 것입니다.

데이터 집합에 적합도 검정을 적용하려면 다음 사항이 필요합니다.

  • 전체 모집단의 단순 랜덤 표본에 해당하는 데이터 값
  • 범주형 또는 명목형 데이터. 연속형 데이터에는 카이제곱 적합도 검정이 적합하지 않습니다.
  • 관측된 각 데이터 범주에서 최소 5개의 값이 기대될 정도로 큰 데이터 세트 

카이제곱 적합도 검정 예

캔디 봉지를 예로 사용하겠습니다. 랜덤 표본으로 캔디 10봉지를 수집합니다. 각 봉지에 5가지 맛과 100개의 캔디가 들어 있습니다. 가설은 봉지마다 담긴 다섯 가지 맛의 비율이 동일하다는 것입니다.

먼저 한 가지 질문의 답을 찾아 보겠습니다. 카이제곱 적합도 검정이 캔디 봉지에 담긴 맛들의 분포를 평가하기에 적절한 방법일까요?

  • 단순 랜덤 표본으로 캔디 10봉지가 있습니다. 이 요구사항을 충족합니다.
  • 범주형 변수는 캔디의 맛입니다. 캔디 10봉지에 담긴 캔디 맛별 개수를 알고 있습니다. 이 요구사항을 충족합니다.
  • 봉지마다 캔디가 100개씩 들어 있습니다. 그리고 봉지마다 5가지 맛 캔디들이 들어 있습니다. 맛별로 캔디 개수가 동일할 것으로 기대합니다. 즉, 봉지마다 맛별로 들어 있는 캔디 수는 20개(100 / 5 = 20)로 기대합니다. 10봉지 표본에 포함된 맛별 캔디 수는 200개(10 x 20 = 200)로 기대합니다. 이 값은 범주별로 5개의 기대값 요구사항보다 큽니다.

위 질문의 답이 '예'이므로 카이제곱 적합도 검정이 캔디 봉지에 담긴 맛들의 분포를 평가하기에 적절한 방법입니다. 

아래 그림 1은 캔디 10봉지 전체의 합산된 캔디맛 개수를 보여줍니다.

그림 1: 전체 캔디 봉지 10개의 맛별 캔디 개수 막대 차트

어떠한 통계없이도 맛별 캔디 수가 같지 않다는 것을 알 수 있습니다. 어떤 맛은 기대했던 200개보다 적고, 또 어떤 맛은 더 많습니다. 그런데 맛별 비율의 차이는 어느 정도일까요? 여러 봉지에 담긴 캔디 수가 봉지마다 맛별로 동일한 개수가 있다는 결론을 내리기에 "충분히 근접"할까요? 아니면 이러한 결론을 짓기에는 캔디 수가 너무 다를까요? 다시 말해서, 데이터 값이 맛별 캔디 수가 동일하다는 가정에 "충분한 수준"의 적합도를 보이나요?

이를 판단하기 위해 갖고 있는 것과 기대하는 것 사이 차이를 구합니다. 그런 다음, 기대보다 개수가 적은 맛에 기대보다 개수가 많은 맛과 동일한 유의성을 부여하기 위해 차이의 제곱을 구합니다. 그런 다음, 제곱한 결과를 기대 개수로 나누고, 그 값들을 합산합니다. 산출되는 결과가 검정 통계량입니다.

이러한 단계는 예제의 숫자를 사용하여 훨씬 더 쉽게 이해할 수 있습니다.

먼저 각 봉지에 맛별 캔디 수가 동일할 경우 기대하는 것들을 목록에 나열해 보겠습니다. 위에서 10봉지의 캔디를 200개로 계산했습니다.

테이블 1: 캔디 맛별 실제 개수와 기대 개수 비교

캔디 맛캔디 개수(10봉지)캔디 기대 개수
사과180200
라임250200
체리120200
체리225200
포도225200

이제 데이터에서 관측한 것과 기대하는 것 사이 차이를 구합니다. 아래 테이블 2의 마지막 열에 차이 값이 있습니다.

테이블 2: 캔디 맛별 관측 개수와 기대 개수 사이 차이

캔디 맛캔디 개수(10봉지)캔디 기대 개수관측값-기대값
사과180200180-200 = -20
라임250200250-200 = 50
체리120200120-200 = -80
주황색225200225-200 = 25
포도225200225-200 = 25

차이 값이 양수도 있고, 음수도 있습니다. 단순히 합산하면 0이 됩니다. 단순 합산 대신, 차이 값을 제곱합니다. 그러면 기대보다 개수가 적은 캔디 맛과 기대보다 개수가 많은 캔디 맛에 동일한 중요도가 부여됩니다.

테이블 3: 캔디 맛별 관측값과 기대값의 차이 제곱값 계산

캔디 맛캔디 개수(10봉지)캔디 기대 개수관측값-기대값차이 제곱값
사과180200180-200 = -20400
라임250200250-200 = 502500
체리120200120-200 = -806400
주황색225200225-200 = 25625
포도225200225-200 = 25625

다음에는 차이 제곱값을 기대 개수로 나눕니다.

테이블 4: 캔디 맛별 차이 제곱값/기대 개수 계산

캔디 맛캔디 개수(10봉지)캔디 기대 개수관측값-기대값차이 제곱값차이 제곱값/ 기대 개수
사과180200180-200 = -20400400 / 200 = 2
라임250200250-200 = 5025002500 / 200 = 12.5
체리120200120-200 = -8064006400 / 200 = 32
주황색225200225-200 = 25625625 / 200 = 3.125
포도225200225-200 = 25625625 / 200 = 3.125

마지막으로 마지막 열의 숫자들을 합산하여 검정 통계량을 산출합니다.

$ 2 + 12.5 + 32 + 3.125 + 3.125 = 52.75 $

결론을 내리기 위해 검정 통계량을 카이제곱 분포의 값과 비교합니다. 이 작업은 다음 4단계로 진행됩니다.

  1. 먼저 표본 관찰값에 근거하여 잘못된 결론을 감수할 위험률을 정합니다. 캔디 데이터의 경우, 데이터를 수집하기 전에 전체 모집단의 각 캔디 봉지에 담긴 맛별 개수가 실제로는 동일한데 다르다는 결론을 내릴 위험률 5%를 감수할 용의가 있다고 결정합니다. 통계량 측면에서 유의 수준 α를 0.05로 설정합니다.
  2. 검정 통계량을 계산합니다. 산출된 검정 통계량은 52.75입니다.
  3. 지정한 유의 수준을 기반으로 카이제곱 분포에서 이론적 값을 찾습니다. 이론적 값은 봉지에 담긴 맛별 캔디 수가 동일할 경우 기대하는 값입니다.

    이 값을 구하는 데 유의 수준 외에 자유도 값도 필요합니다. 적합도 검정에서 자유도는 범주 수에서 1을 뺀 값입니다. 5가지 맛 캔디가 있으므로 자유도는 4(5 - 1 = 4)입니다.

    α = 0.05, 자유도 4인 카이제곱 값은 9.488입니다.
  4. 검정 통계량(52.75) 값을 카이제곱 값과 비교합니다. 52.75 > 9.488이므로 캔디 맛별 비율이 동일하다는 귀무가설을 기각합니다.

 

그리고 전체 모집단 캔디 봉지에 담긴 5가지 맛별 캔디 수가 동일하지 않다는 실질적인 결론을 내립니다. 원래 데이터를 보면 합당한 결론입니다. 만약 라임 맛을 좋아한다면 다른 맛보다 라임 맛 캔디가 많기를 바랄 것입니다. 그런데 체리 맛을 더 좋아한다면 체리 맛 캔디가 기대 개수보다 적기 때문에 슬플 것입니다.

결과 이해

몇 가지 그래프를 사용하여 검정과 결과를 탐색해 보겠습니다.

데이터의 단순 막대 차트는 캔디 맛별 관측 개수를 보여줍니다.

 

그림 2: 캔디 맛별 관측 개수 막대 차트

또 다른 단순 막대 차트는 200개 중 맛별 기대 개수를 보여줍니다. 캔디 봉지에 담긴 맛별 캔디 수가 동일할 경우 차트는 이와 같이 나타납니다.

그림 3: 캔디 맛별 기대 개수 막대 차트

아래 병렬 차트에서 실제 관측 캔디 수는 파란색으로 표시됩니다. 주황색 막대는 기대 캔디 수를 나타냅니다. 어떤 맛은 기대보다 많고, 또 어떤 맛은 기대보다 적음을 알 수 있습니다.

그림 4: 캔디의 실제 개수와 기대 개수를 비교하는 막대 차트

통계 검정은 차이를 정량화하는 방법이다. 표본의 실제 데이터가 전체 캔디 봉지 모집단의 맛별 비율이 동일하다는 결론을 내리기 위해 기대하는 것에 충분히 근접"할까요? 아니면 그렇지 않을까요? 위 캔디 데이터에서 대부분의 사람이 통계적 검정 없이도 "충분히 근접"하지 않다고 말할 것입니다.

그런데 데이터가 아래 그림 5의 예와 같다면 어떨까요? 보라색 막대는 관측 개수를 나타내고 주황색 막대는 기대 개수를 나타냅니다. 이번에는 데이터가 "충분히 근접"하다고 하는 사람도 있고, 그렇지 않다고 말하는 사람도 있을 것입니다. 통계적 검정은 일반적인 의사결정 방법을 제공하여 누구나 데이터 집합에 관해 동일한 결정을 내릴 수 있도록 해줍니다.

그림 5: 다른 예 데이터 집합을 사용하여 기대값과 실제값 비교하는 막대 차트

통계 상세 정보

통계적 용어를 사용하여 캔디 데이터와 카이제곱 적합도 검정을 살펴보겠습니다. 이 검정을 Pearson의 카이제곱 검정이라고도 합니다.

귀무가설은 봉지마다 담긴 5가지 맛의 비율이 동일하다는 것입니다. 5가지 맛이 있습니다. 귀무가설 표현식은 다음과 같습니다.

$ H_0: p_1 = p_2 = p_3 = p_4 = p_5 $

위 계산식은 맛별 비율로 p를 사용합니다. 100개씩 담긴 캔디 봉지마다 5가지 맛별 캔디 수가 동일하면 한 봉지에는 맛별로 캔디가 20개씩 들어 있습니다. 맛별 비율은 0.2(20 / 100 = 0.2)입니다.

대립가설은 모집단 중 하나 이상이 나머지와 다르다는 것입니다. 대립가설 표현식은 다음과 같습니다.

$ H_a: at\ least\ one\ p_i\ not\ equal $

일부 경우에 동일 비율에 대한 검정을 수행합니다. 이 페이지 맨 위에 나온 어린이 스포츠팀 예제를 다시 한 번 살펴보겠습니다. 그 예를 사용할 때 귀무가설과 대립가설은 다음과 같습니다.

$ H_0: p_1 = 0.2, p_2 = 0.65, p_3 = 0.15 $

$ H_a: at\ least\ one\ p_i\ not\ equal\ to\ expected\ value $

단일 모집단 모수를 포함하는 다른 가설과 달리, 계산식만 사용할 수는 없습니다. 여기서 세운 가설을 설명하기 위해 단어와 기호를 사용할 필요가 있습니다.

아래 계산식을 사용하여 검정 통계량을 계산합니다.

$ \sum^n_{i=1} \frac{(O_i-E_i)^2}{E_i} $

위 계산식에는 n 개의 그룹이 있습니다. $ \sum $ 기호는 각 그룹에 대한 계산 결과의 합산을 의미합니다. 각 그룹에 대해 캔디 예제와 동일한 단계를 밟습니다. 계산식에서 Oi  는 각 그룹에 대한 관측값을, Ei  는 기대값을 각각 나타냅니다.

그런 다음, 선택된 유의 수준(알파 값이라고도 함)과 데이터 자유도를 갖는 카이제곱 값과 검정 통계량을 비교합니다. 예로 캔디 데이터를 사용하며 α = 0.05로 설정하였고 자유도는 3입니다. 캔디 데이터에 대한 카이제곱 값은 다음과 같이 나타냅니다.

$ χ²_{0.05,4} $

여기 비교에서 가능한 결과는 두 가지입니다.

  • 검정 통계량이 카이제곱 값보다 작습니다. 이 경우에는 비율이 같다는 가설을 기각하지 못합니다. 전체 모집단의 캔디 봉지에 맛별 캔디 수가 동일하다는 결론을 내립니다. 동일 비욜 적합도가 "충분히 적합함" 수준입니다.
  • 검정 통계량이 카이제곱 값보다 큽니다. 이 경우에는 비율이 같다는 가설을 기각합니다. 캔디 봉지의 맛별 캔디 수가 동일하다는 결론을 내릴 수 없습니다. 동일 비욜 적합도가 "충분히 적합하지 못함" 수준입니다.

검정 결과를 더 정확히 이해하기 위해 카이제곱 분포의 그래프를 사용해보겠습니다. 검정 통계량이 분포에서 임계값보다 극단값에 가까울지 여부를 확인하려고 합니다. 아래 분포는 자유도 4의 카이제곱 분포를 보여줍니다. 임계값 9.488이 데이터의 95%를 "절단"하는 양상을 보여주고 있습니다. 데이터의 5%만이 9.488보다 큽니다.

그림 6ㅣ 자유도 4에 대한 카이제곱 분포

다음 분포도에는 예제는 결과가 나와 있습니다. 검정 통계량이 "꼬리 안"에서 얼마나 멀어지는지 알 수 있으며, 52.75에서 점선으로 표시됩니다. 사실 이 척도를 사용하면 곡선이 점선과 0에서 교차하는 것처럼 보입니다. 실제 그렇지는 않지만 0에 매우 근접합니다. 이러한 상황이 우연히 발생할 가능성이 매우 낮다는 결론을 내립니다. 만약 캔디 봉지의 실제 모집단에 담긴 맛별 캔디 개수가 동일하다면 랜덤 표본 캔디 10봉지에서 수집한 결과를 볼 가능성은 극도로 낮습니다.

그림 7: 검정 통계량이 표시된 자유도 4에 대한 카이제곱 분포

대부분의 통계 소프트웨어는 검정에 대한 p 값을 표시합니다. 이는 귀무가설이 옳다고 가정할 때 유사한 표본에서 검정 통계량에 대한 보다 극단값을 찾을 가능성입니다. p 값을 직접 계산하기는 어렵습니다. 위의 그림에서 검정 통계량이 정확히 9.488이면 p- 값은 p=0.05입니다. 검정 통계량이 52.75일 때 p- 값은 극도로 작습니다. 이 예제에서 대부분의 통계 소프트웨어에서 보고되는 p- 값은 “p < 0.0001”입니다. 즉, 맛별로 동일한 개수라는 귀무가설이 맞다고 가정할 때 다른 10봉지 표본이 검정 통계량보다 더 극단값을 보일 확률이 10,000분의 1보다 낮습니다.