쌍체 t-검정
쌍체 t-검정이란?
쌍체 t-검정은 측정값 쌍 간 평균 차이가 0인지 여부를 검정하는 데 사용되는 방법입니다.
카이제곱 적합도 검정은 언제 사용하는가?
데이터 값이 쌍체 측정값일 때 이 검정을 사용할 수 있습니다. 사용자 그룹에 대한 이전-이후 측정값을 예로 들 수 있습니다. 또한 쌍체 측정값 간 차이 분포는 반드시 정규 분포를 따릅니다.
쌍체 t-검정을 달리 부르는 이름이 있습니까?
쌍체 t-검정은 종속 표본 t-검정, 쌍체 차이 t-검정, 매칭 쌍 t-검정, 반복 표본 t-검정이라고도 합니다.
데이터가 정규 분포를 제대로 따르지 않으면 어떻게 할까요?
표본 크기가 매우 작으면 정규성을 검정하지 못할 수도 있습니다. 본인의 데이터 이해력에 의존해야 할 수도 있습니다. 아니면 정규성을 가정하지 않는 비모수 검정을 수행할 수 있습니다.
쌍체 t-검정 사용
아래 섹션에서는 검정 수행에 필요한 사항, 데이터 확인, 검정 수행 방법 및 통계 세부 정보에 대해 설명합니다.
검정에 필요한 사항은 무엇인가?
쌍체 t-검정에는 두 개의 변수가 필요합니다. 한 변수는 관측값 쌍을 정의합니다. 두 번째 변수는 측정값입니다. 때로 측정 변수에 대한 쌍체 차이가 이미 있는 경우가 있습니다. 아니면 각 쌍에 대한 "이전" 및 "이후" 측정값에 대해 별도 변수가 있고, 그 차이를 계산해야 하는 경우도 있습니다.
또한 쌍체 간 차이가 0이라는 가정이나 가설도 세우고 있습니다. 다음은 세 가지 예입니다.
- 건조한 피부를 가진 한 그룹의 사람들 한 팔에는 의료용 로션을 사용하고 다른 팔에는 일반 로션을 사용합니다. 일주일이 지난 후, 의사가 각 팔의 홍조를 측정합니다. 의료용 로션이 일반 로션보다 효능이 좋은지 알아보려고 합니다. 의료용 로션을 바른 팔이 다른 팔보다 홍조가 덜한지 확인하는 방법을 사용합니다. 사람마다 쌍체 측정값이 있으므로 그 차이를 구합니다. 그리고 평균 차이가 0인지 여부를 검정합니다.
- 금연 프로그램에서 사람들의 몸무게를 측정합니다. 프로그램을 시작할 때와 끝낼 때 잰 모든 사람의 몸무게 정보가 있습니다. 프로그램에서 사람들의 평균 몸무게 변동량이 0인지 여부를 확인하려고 합니다.
- 강사가 학생들에게 시험 문제를 내고, 다음날 같은 소재의 다른 시험 문제를 다시 냅니다. 강사는 두 시험의 난이도가 같은지 알아보려고 합니다. 각 학생의 시험 점수 차이를 계산합니다. 그리고 평균 차이가 0인지 여부를 검정합니다.
쌍체 t-검정 가정
쌍체 측정값 사이 차이를 알아보기 위해 쌍체 t-검정을 사용하려면 다음과 같은 가정을 전제로 해야 합니다.
- 피검정체는 독립적이어야 합니다. 한 피검정체의 측정값이 다른 피검정체의 측정값에 영향을 주지 않습니다.
- 각 쌍체 측정값을 동일한 피검정체에서 구해야 합니다. 예를 들어, 위 예에서 흡연자의 이전-이후 체중이 같은 사람의 체중이어야 합니다.
- 측정된 차이는 정규 분포를 따릅니다.
쌍체 t-검정 예
한 강사가 내년 수업에서 두 가지 시험지를 사용하려고 합니다. 올해 학생들에게 두 가지 시험을 치르게 합니다. 강사는 두 시험의 난이도가 동일한지 알아보길 원하며, 두 시험의 점수 차이로 사실을 확인하려고 합니다. 만약 학생들의 평균 점수 차이가 0점에 "충분히 근접"한 수준이라면 두 시험의 난이도가 같다는 실질적인 결론을 내릴 것입니다. 데이터는 다음과 같습니다.
테이블 1: 각 학생의 시험 점수
학생 | 검정 1 점수 | 검정 2 점수 | 차이 |
Bob | 63 | 69 | 6 |
Nina | 65 | 65 | 0 |
Tim | 56 | 62 | 6 |
Kate | 100 | 91 | -9 |
Alonzo | 88 | 78 | -10 |
Jose | 83 | 87 | 4 |
Nikhil | 77 | 79 | 2 |
Julia | 92 | 88 | -4 |
Tohru | 90 | 85 | -5 |
Michael | 84 | 92 | 8 |
Jean | 68 | 69 | 1 |
Indra | 74 | 81 | 7 |
Susan | 87 | 84 | -3 |
Allen | 64 | 75 | 11 |
Paul | 71 | 84 | 13 |
Edwina | 88 | 82 | -6 |
위 테이블을 보면 점수 차이가 양수도 있고, 음수도 있습니다. 두 시험의 난이도가 같다고 생각할 수 있습니다. 동의하지 않는 사람도 있을 것입니다. 통계적 검정은 일반적인 의사결정 방법을 제공하여 누구나 데이터에 관해 동일한 결정을 내릴 수 있도록 해줍니다.
데이터 확인
먼저 한 가지 질문의 답을 찾아 보겠습니다. 쌍체 t-검정이 두 시험 간 난이도 차이를 평가하기에 적절한 방법일까요?
- 피검정체는 독립적입니다. 각 학생이 두 가지 시험을 치릅니다.
- 각 쌍체 측정값을 동일한 피검정체에서 구합니다. 각 학생이 두 가지 시험을 모두 치릅니다.
- 차이의 분포는 정규 분포를 따릅니다. 지금은 이것이 사실이라고 가정하고, 나중에 검정해보겠습니다.
유효한 분석 방법을 선택했다고 판정합니다.
분석으로 들어가기 전에 데이터를 그래프로 표시해 보아야 합니다. 아래 그림은 시험 점수 차이에 대한 히스토그램과 요약 통계량을 보여줍니다.
매우 특이한 점들, 즉 이상치가 없음을 알 수 있습니다. 데이터가 종형에 가까우므로 처음에 내린 점수차 정규 분포라는 가정은 합리적입니다.
통계량을 보면 평균 또는 차이가 1.3으로 나타납니다. 강사가 두 시험의 난이도가 동일하다고 판단하기에 "충분히 근접"한 수준일까요? 아니면 그렇지 않은까요?
쌍체 t-검정을 수행하는 방법
아래 통계 상세 정보 섹션에 제시된 쌍체 t 검정의 기본 원리는 나중에 자세히 설명하고, 먼저 처음부터 끝까지 단계를 밟아가 보겠습니다. 검정 통계량 계산으로 시작합니다. 이 계산에는 평균 차이, 차이의 표준편차, 표본 크기가 필요합니다. 이러한 정보는 위 그림 1에 나와 있습니다. (아래 통계량은 소수 자릿수 두 자리로 반올림된 결과입니다. 소프트웨어는 보통 더 많은 소수 자릿수를 제시하며, 계산에도 그대로 사용합니다.)
평균 점수 차이는 다음과 같습니다.
$ \overline{x_d} = 1.31 $
다음에는 점수 차이의 표준 오차를 계산합니다. 계산식은 다음과 같습니다.
$ \text{Standard Error} = \frac{s_d}{\sqrt{n}} = \frac{7.00}{\sqrt{16}} = \frac{7.00}{4} = 1.75 $
위 계산식에서 n은 학생 수이며, 차이 수에 해당합니다. 차이의 표준편차는 sd입니다.
이제 검정 통계량 산출에 필요한 모든 자료를 구했습니다. 검정 통계량은 다음과 같이 계산합니다.
$ t = \dfrac{\text{Average difference}}{\text{Standard Error}} = \frac{1.31}{1.75} = 0.750 $
결정을 내리기 위해 검정 통계량을 t- 분포의 값과 비교합니다. 이 작업은 다음 네 가지 단계로 진행됩니다.
- 차이가 없는데 차이를 단언하기 위해 감수할 위험률을 결정합니다. 시험 점수 데이터의 경우, 알 수 없는 평균 시험 점수 차이를 실제와 달리 0이라고 말할 위험률 5%를 감수할 용의가 있다고 결정합니다. 통계량 용어로 유의 수준 α를 0.05로 설정합니다. 데이터를 수집하기 전과 검정 통계량을 계산하기 전에 이러한 결정을 내리는 것이 좋습니다.
- 검정 통계량을 계산합니다. 산출된 검정 통계량은 0.750입니다.
- t 분포에서 값을 구합니다. 대부분의 통계량 서적에 분포 조회 테이블이 나와 있습니다. 온라인으로도 조회 테이블을 찾을 수 있습니다. 가장 가능성이 높은 상황은 출간된 서적의 테이블을 사용하지 않고 소프트웨어를 분석에 사용하는 것입니다.
이 값을 찾으려면 유의 수준(α = 0.05)과 자유도가 필요합니다. 자유도(df)는 표본 크기에 따라 결정됩니다. 시험 점수 데이터의 경우 다음과 같습니다.
$ df = n - 1 = 16 - 1 = 15 $
α = 0.05, 자유도 15의 t 값은 2.131입니다. - 산출된 통계량 값(0.750)을 t 값과 비교합니다. 0.750 < 2.131이므로 평균 점수 차이가 0이라는 가정을 기각할 수 없습니다. 결국 시험의 난이도가 동일하다는 실질적인 결론을 내립니다.
통계 상세 정보
통계 용어를 사용하여 시험 점수 데이터와 쌍체 t-검정을 살펴보겠습니다.
여기서 귀무가설은 모집단 차이 평균이 0이라는 것입니다. 귀무가설 표현식은 다음과 같습니다.
$ H_o: \mathrm{\mu_d} = 0 $
대립가설은 모집단 차이 평균이 0이 아니다입니다. 대립가설 표현식은 다음과 같습니다.
$ H_o: \mathrm{\mu_d} \neq 0 $
다음과 같이 표준 오차를 계산합니다.
$ Standard Error = \frac{s_d}{\sqrt{n}} $
계산식에서 차이에 대한 표본 표준편차를 sd, 표본 크기를 n으로 각각 표시합니다.
검정 통계량 계산식은 다음과 같습니다.
$ t = \frac{\mathrm{\mu_d}}{\frac{s}{\sqrt{n}}} $
그런 다음, 선택된 알파 값과 데이터 자유도를 갖는 t 값과 검정 통계량을 비교합니다. 시험 점수 데이터 예제에서 α = 0.05로 설정합니다. 자유도(df)는 표본 크기에 따라 결정되며, 다음과 같이 계산합니다.
$ df = n - 1 = 16 - 1 = 15 $
통계학자들은 α = 0.05, 자유도 15인 t 값을 다음과 같이 표시합니다.
$ t_{0.05,15} $
α = 0.05, 자유도 15인 t 값은 2.131입니다. 여기 비교에서 가능한 결과는 두 가지입니다.
- 검정 통계량이 t 값보다 작습니다. 이 경우에는 평균 차이가 0이라는 가설을 기각하지 못합니다. 강사가 내린 실질적인 결론은 두 시험의 난이도가 같다는 것입니다. 내년에 강사는 두 가지 시험을 모두 사용할 수 있고, 학생들을 반으로 나눠서 두 시험을 치르게 할 수 있습니다.
- 검정 통계량이 t 값보다 큽니다. 이 경우에는 평균 차이가 0이라는 가설을 기각합니다. 강사가 내린 실질적인 결론은 두 시험의 난이도가 동일하지 않다는 것입니다. 강사는 전체 학생에게 같은 시험지를 사용해야 합니다.
정규성 검정
정규성 가정은 크기가 큰 표본보다 작은 표본에 더 중요합니다.
정규 분포는 대칭으로, 중심에서 양쪽으로 "균등"하게 분포된 것을 의미입니다. 정규 분포에는 극단값 또는 이상치가 없습니다. 그래프를 통해 정규 분포의 두 가지 특징을 확인할 수 있습니다. 앞에서 검정 점수 차이의 분포가 정규성 가정 아래 진행할 수 있을 정도로 정규성에 "충분히 근접"한다는 결론을 내렸습니다. 아래 그림은 데이터에 대한 정규 분위수 그림을 보여주며, 앞에서 내린 결론을 뒷받침합니다.
소프트웨어를 사용하여 정형화된 정규성 검정을 수행할 수도 있습니다. 아래 그림 3은 JMP를 사용한 정규성 검정 결과를 보여줍니다. 여기서는 점수 차이 분포를 검정합니다. 정규 분포 가설을 기각할 수 없습니다. 쌍체 t-검정으로 진행할 수 있습니다.
정규 분포에서 표집하지 않은 데이터는 어떻게 하는가?
표본 크기가 매우 작으면 정규성을 검정하기 어려울 수도 있습니다. 이러한 경우, 측정값에서 파악되는 정보를 활용해야 합니다. 시험 점수 데이터를 예로 들면, 강사는 점수 차이의 기본 분포가 정규 분포를 따른다는 사실을 알고 있습니다. 따라서 표본이 아주 작더라도 강사가 정규성을 가정하고 t-검정을 진행할 수 있습니다.
기본 측정값이 정규 분포를 따르지 않음을 알고 있으면 어떻게 할까요? 아니면 표본 크기가 크고 정규성 검정이 기각되면 어떻게 할까요? 이러한 상황에서는 비모수 분석을 사용할 수 있습니다. 이러한 분석 유형은 특정 분포에서 데이터 값이 추출되었다는 가정에 의존하지 않습니다. 쌍체 t-검정의 경우, 한 가지 비모수 검정은 Wilcoxon 부호 순위 검정입니다.
p 값 이해
시각화를 사용하여 검정 통계량이 분포에서 극단값일 가능성이 높은지 확인할 수 있습니다. t 분포는 정규 분포와 비슷합니다. 아래 그림은 자유도 15의 t 분포를 보여줍니다.
여기서 검정은 양측이고 α = 0.05로 설정하기 때문에 그림에서 2.27이라는 값에 의해 두 꼬리 각각에서 데이터의 2.5%가 "절단"됨을 알 수 있습니다. 전체 데이터의 5%만 꼬리에서 2.131보다 더 멀리 벗어납니다.
그림 5는 그래프에서 결과가 나타나는 위치를 보여줍니다. 검정 통계량(0.75)이 "꼬리에서 이탈"한 정도가 평균 차이가 0이라는 가설을 기각하기에 충분하지 않음을 알 수 있습니다.
소프트웨어에 모든 사항 통합
실제 환경에서 쌍체 t-검정에는 대부분 소프트웨어를 사용합니다. 아래 그림은 JMP를 사용하여 시험 점수 데이터에 대한 쌍체 t-검정 결과를 보여줍니다.
소프트웨어에서 보여주는 결과는 양측 검정 결과((Prob > |t|))와 단측 검정 결과입니다. 여기서 원하는 것은 양측 검정입니다. 귀무가설은 쌍체 시험 점수 간 평균 차이가 0이라는 것입니다. 대립가설은 평균 차이가 0이 아니라는 것입니다.
소프트웨어에서 보여주는 값은 양측 검정의 p 값 0.4650입니다. 즉, 기본 모집단 평균 차이가 0일 때 표본 평균 차이가 1.31 이상일 가능성이 100개 중 대략 47개임을 의미합니다. 따라서 귀무가설을 기각하지 않기로 한 결정을 확신합니다. 강사는 내년에 두 시험을 모두 사용하려고 한 계획을 진행할 수 있고, 학생들을 반으로 나눠서 두 그룹이 다른 시험을 치르게 할 수 있습니다.