2표본 t-검정
2표본 t-검정이란?
2표본 t-검정(독립 표본 t-검정이라고도 함)은 알 수 없는 두 그룹 모집단 평균이 같은지 여부를 검정하는 데 사용되는 방법입니다.
A/B 검정과 동일한가?
그렇습니다. 2표본 t-검정은 A/B 검정의 결과를 분석하는 데 사용됩니다.
카이제곱 적합도 검정은 언제 사용할 수 있는가?
데이터 값이 독립적이고 두 정규 모집단에서 랜덤 표집되며, 두 독립 그룹의 분산이 동일한 경우에 사용할 수 있는 검정입니다.
그룹이 세 개 이상일 때는 어떻게 하는가?
다중 비교 방법을 사용합니다. 이러한 방법 중 하나가 분산 분석(ANOVA)입니다. 그 밖의 다중 비교 방법으로는 Tukey-Kramer 전체 쌍별 차이 검정, 그룹 평균을 전체 평균과 비교하는 평균 분석(ANOM) 또는 그룹별 평균을 관리 평균과 비교하는 Dunnett 검정 등이 있습니다.
두 그룹의 분산이 같지 않으면 어떻게 하는가?
2표본 t-검정을 계속 사용할 수 있습니다. 표준편차의 다른 추정값을 사용합니다.
데이터가 정규 분포를 제대로 따르지 않으면 어떻게 하는가?
표본 크기가 매우 작으면 정규성을 검정하지 못할 수도 있습니다. 본인의 데이터 이해력에 의존해야 할 수 있습니다. 정규성을 가정하는 것이 안전하지 않을 경우 비모수 검정을 수행할 수 있습니다.
2표본 t-검정 사용
아래 섹션에서는 검정 수행에 필요한 사항, 데이터 확인, 검정 수행 방법 및 통계 세부 정보에 대해 설명합니다.
검정에 필요한 사항은 무엇인가?
2표본 t-검정에는 두 개의 변수가 필요합니다. 한 변수는 두 그룹을 정의합니다. 두 번째 변수는 관심 대상 측정값입니다.
또한 두 그룹의 기본 모집단의 평균이 서로 다르다는 전제 또는 가설을 세우고 있습니다. 다음은 몇 가지 예입니다.
- 영어를 모국어로 사용하는 학생과 그렇지 않은 학생들이 있습니다. 모든 학생들이 읽기 시험을 봅니다. 영어가 모국어인 사람군과 그렇지 않은 사람군의 두 그룹이 있습니다. 측정값은 시험 점수입니다. 전제는 영어가 모국어인 사람들과 그렇지 않은 사람들의 기본 모집단의 평균 시험 점수가 다르다는 것입니다. 영어가 모국어인 사람들의 모집단의 평균 점수가 영어를 제2 외국어로 배운 사람들과 다른지 알아보려고 합니다.
- 두 가지 브랜드 에너지바의 단백질 함량(g)을 측정합니다. 두 그룹은 두 개의 브랜드입니다. 측정값은 각 에너지바의 단백질 함량(g)입니다. 전제는 두 브랜드의 기본 모집단의 단백질 평균 함량이 다를 수 있다는 것입니다. 여기서 두 브랜드 에너지바에 대한 평균 단백질 함량(g)이 다른지 혹은 같은지 여부가 명백히 확인되는지 알아보려고 합니다.
2표본 t-검정 가정 사항
유효한 검정을 수행하려면:
- 데이터 값들이 독립적이어야 합니다. 한 관측 대상의 측정값은 다른 관측 대상의 측정값에 영향을 주지 않습니다.
- 각 그룹의 데이터는 모집단에서 랜덤 표본을 추출해야 합니다.
- 각 그룹의 데이터는 정규 분포를 따릅니다.
- 데이터 값은 연속형입니다.
- 독립적인 두 그룹에 대한 분산은 동일합니다.
데이터 그룹이 너무 작으면 이러한 요구 사항을 검정하기 어려울 수 있습니다. 아래에서 소프트웨어를 사용하여 요구 사항을 확인하는 방법과 요구 사항이 충족되지 않을 때 수행할 작업에 대해 설명합니다.
2표본 t-검정 예제
인체 건강도를 측정하는 한 가지 방법이 체지방률을 측정하는 것입니다. 평균 체지방률은 연령에 따라 다르지만 일부 지침에 따르면 남성의 정상 범위는 15~20%, 여성은 20~25%입니다.
표본 데이터는 1년 동안 매주 3회 헬스클럽에서 운동한 남성과 여성 그룹에서 수집합니다. 트레이너가 대상자들의 체지방을 측정했습니다. 아래 표에는 측정 데이터가 나와 있습니다.
그림 1: 성별로 분류한 체지방률 데이터
그룹 | 체지방률 | ||||
남성 | 13.3 | 6.0 | 20.0 | 8.0 | 14.0 |
19.0 | 18.0 | 25.0 | 16.0 | 24.0 | |
15.0 | 1.0 | 15.0 | |||
여성 | 22.0 | 16.0 | 21.7 | 21.0 | 30.0 |
26.0 | 12.0 | 23.2 | 28.0 | 23.0 |
표본의 남성과 여성의 체지방 측정값에서 일부 중첩이 확실히 드러나지만 몇 가지 차이점도 있습니다. 데이터만으로는 헬스센터의 기본 남성 및 여성 모집단 평균 체지방이 서로 동일한지 여부를 확실히 결론 짓기 어렵습니다. 이는 통계적 검정 값이다. 통계적 검정은 합당한 의사결정 방법을 제공하여 누구나 동일한 데이터 집합에 관해 동일한 결정을 내릴 수 있도록 해줍니다.
데이터 확인
먼저 한 가지 질문의 답을 찾아 보겠습니다. 2표본 t-검정이 남성과 여성의 체지방 차이를 평가하기에 적절한 방법일까요?
- 데이터 값들은 독립적입니다. 한 사람의 체지방은 다른 사람의 체지방과 무관합니다.
- 측정 대상자들은 헬스클럽 회원 모집단의 단순 랜덤 표본을 대표한다고 가정합니다.
- 데이터가 정규 분포를 따른다고 가정하고, 이 가정을 확인할 수 있습니다.
- 데이터 값은 체지방 측정값입니다. 그리고 측정값은 연속형입니다.
- 남성과 여성의 분산이 같다고 가정하고, 이 가정을 확인할 수 있습니다.
분석으로 들어가기 전에 항상 데이터를 빠르게 살펴보아야 합니다. 아래 그림은 남성과 여성에 대한 히스토그램과 요약 통계량을 보여줍니다.
두 히스토그램은 동일한 척도에 있습니다. 잠깐 살펴보면 매우 비정상 점들, 즉 이상치가 없음을 알 수 있습니다. 데이터가 종형에 가까우므로 처음에 내린 정규 분포라는 가정은 합리적입니다.
요약 통계량을 살펴보면 표준편차가 비슷하게 나타납니다. 등분산 개념을 뒷받침하는 결과입니다. 분산 검정으로도 이를 확인할 수 있습니다.
이러한 관측값을 근거로 2표본 t-검정은 평균의 차이를 검정하기 위한 적절한 방법으로 보입니다.
2표본 t-검정을 수행하는 방법
각 그룹에 대한 평균, 표준편차, 표본 크기 정보가 필요합니다. 이러한 정보는 아래 테이블에 나와 있습니다.
테이블 2: 성별로 그룹화한 평균, 표준편차 및 표본 크기 통계량
그룹 | 표본 크기(n) | 평균(X-bar) | 표준편차(s) |
여성 | 10 | 22.29 | 5.32 |
남성 | 13 | 14.95 | 6.84 |
어떠한 검정도 수행하지 않아도 표본의 남성과 여성의 평균이 같지 않음을 알 수 있습니다. 그런데 그 차이는 어느 정도일까요? 헬스클럽에서 규모를 확대한 남성 및 여성 모집단의 평균 체지방이 동일하다는 결론을 내릴 수 있을 정도로 두 평균 값이 "충분히 근접"할까요? 아니면 평균 차이가 너무 커서 이렇게 결론지을 수 없을까요?
아래 통계 상세 정보 섹션에 제시된 두 가지 표본 t 검정의 기본 원리는 나중에 자세히 설명하고, 먼저 처음부터 끝까지 단계를 밟아가 보겠습니다. 검정 통계량 계산으로 시작합니다. 먼저 다음 두 평균 간 차이를 구합니다.
$ 22.29 - 14.95 = 7.34 $
표본에서 이러한 차이로 두 그룹의 모집단 평균 간 차이를 추정합니다.
이어서 합동 표준편차를 계산합니다. 여기에서 따라서 전체 표준편차의 결합 추정값이 산출됩니다. 여러 다른 그룹 크기에 맞춰 추정값이 조정됩니다. 먼저, 합동 분산을 계산하겠습니다.
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
$ s_p^2 = \frac{((10 - 1)5.32^2) + ((13 - 1)6.84^2)}{(10 + 13 - 2)} $
$ = \frac{(9\times28.30) + (12\times46.82)}{21} $
$ = \frac{(254.7 + 561.85)}{21} $
$ =\frac{816.55}{21} = 38.88 $
다음으로, 합동 표준편차를 구하기 위해 합동 분산의 제곱근을 계산합니다. 계산식은 다음과 같습니다.
$ \sqrt{38.88} = 6.24 $
이제 검정 통계량 산출에 필요한 모든 자료를 확보했습니다. 평균, 합동 표준편차 및 표본 크기에 차이가 있습니다. 검정 통계량을 다음과 같이 계산합니다.
$ t = \frac{\text{difference of group averages}}{\text{standard error of difference}} = \frac{7.34}{(6.24\times \sqrt{(1/10 + 1/13)})} = \frac{7.34}{2.62} = 2.80 $
헬스클럽 프로그램에 대한 결정을 내리기 위해 평균 간의 차이를 평가할 목적으로 t 분포의 이론적 값과 검정 통계량을 비교해보려고 합니다. 이 작업은 다음 네 가지 단계로 진행됩니다.
- 유의한 차이를 단언하기 위해 감수할 위험률을 결정합니다. 체지방 데이터의 경우, 남성과 여성의 알 수 없는 모집단 평균이 실제와 같을 때 같지 않다고 말할 위험률 5%를 감수할 용의가 있다고 결정합니다. 통계량 발표에서 α로 나타내는 유의 수준은 0.05로 설정됩니다. 데이터를 수집하기 전과 검정 통계량을 계산하기 전에 이러한 결정을 내리는 것이 좋습니다.
- 여기서는 검정 통계량을 계산하며, 산출된 검정 통계량은 2.80입니다.
- 남성과 여성의 평균이 동일하다고 결정한 귀무가설을 기반으로 t 분포로부터 이론적 값을 찾습니다. 대부분의 통계량 서적에 t 분포 조회 테이블이 나와 있습니다. 온라인으로도 조회 테이블을 찾을 수 있습니다. 가장 가능성이 높은 상황은 인쇄된 서적의 테이블을 사용하지 않고 소프트웨어를 사용하는 것입니다.
이 값을 찾으려면 유의 수준(α = 0.05)과 자유도가 필요합니다. 자유도(df)는 두 그룹의 표본 크기에 따라 결정됩니다. 체지방 데이터의 경우 다음과 같습니다:
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
α = 0.05, 자유도 21에 해당하는 t 값은 2.080입니다. - 통계량 값(2.80)을 t 값과 비교합니다. 2.80 > 2.080이므로 남성과 여성의 평균 체지방이 같다는 귀무가설을 기각하고, 남성과 여성 간에 모집단의 체지방이 다르다는 증거가 있다고 결론을 내립니다.
통계 상세 정보
통계 용어를 사용하여 체지방 데이터와 두 가지 표본 t-검정을 살펴보겠습니다.
여기서 귀무가설은 기본 모집단 평균이 같다는 것입니다. 귀무가설 표현식은 다음과 같습니다.
$ H_o: \mathrm{\mu_1} =\mathrm{\mu_2} $
대립가설은 평균이 서로 다르다는 것입니다. 대립가설 표현식은 다음과 같습니다.
$ H_o: \mathrm{\mu_1} \neq \mathrm{\mu_2} $
각 그룹의 평균을 계산한 다음, 두 평균 간 차이를 계산하겠습니다. 대립가설 표현식은 다음과 같습니다.
$\overline{x_1} - \overline{x_2} $
합동 표준편차를 계산합니다. 기본 모집단 분산이 동일하다는 가정을 전제로 합니다. 합동 분산 계산식은 다음과 같습니다.
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
계산식에서 n1은 첫 번째 그룹의 표본 크기이고 n2는 두 번째 그룹의 표본 크기입니다. 두 그룹의 표준편차는 각각 s1과 s2입니다. 이 추정값을 사용하면 두 그룹의 관측값 개수를 달리 할 수 있습니다. 합동 표준편차는 분산의 제곱근이며 sp로 표시합니다.
두 그룹의 표본 크기가 같으면 어떻게 될까요? 이러한 경우에 분산의 합동 추정값은 간단히 두 그룹 분산의 평균입니다.
$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $
검정 통계량 계산식은 다음과 같습니다.
$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $
두 그룹 평균 사이에 검정 통계량의 분자가 서로 다릅니다. 알 수 없는 두 모집단 평균 간 차이를 추정합니다. 분모는 알 수 없는 두 모집단 평균 간 차이의 전체 표준 오차 추정값입니다.
기술적 상세 정보: 단일 평균의 경우, 표준 오차는 $ s/\sqrt{n} $입니다. 위 계산식은 s(표준편차)의 합동 추정값을 사용하며 다양한 그룹 사이즈를 가질 수 있는 두 그룹으로 이러한 개념을 확장합니다.
그런 다음, 알파 값과 데이터 자유도가 선택된 t 값과 검정 통계량을 비교합니다. 예로 체지방 데이터를 사용하여 α = 0.05로 설정합니다. 자유도(df)는 그룹 크기에 따라 결정되며, 다음과 같이 계산합니다.
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
계산식에서 n1은 첫 번째 그룹의 표본 크기이고 n2는 두 번째 그룹의 표본 크기입니다. 통계학자들은 α = 0.05, 자유도 21인 t 값을 다음과 같이 표시합니다.
$ t_{0.05,21} $
α = 0.05, 자유도 21인 t 값은 2.080입니다. 여기 비교에서 가능한 결과는 두 가지입니다.
- 검정 통계량이 t 값보다 작습니다. 이 경우에는 평균이 같다는 가설을 기각하지 못합니다. 남성과 여성의 평균 체지방이 동일하다는 가정을 데이터가 뒷받침한다는 결론을 내릴 수 있습니다.
- 검정 통계량이 t 값보다 큽니다. 이 경우에는 평균이 같다는 가설을 기각합니다. 남성과 여성의 평균 체지방이 동일하지 않다는 결론을 내릴 수 있습니다.
이분산을 사용한 t-검정
두 그룹의 분산이 같지 않으면 표준편차의 합동 추정값을 사용할 수 없습니다. 대신에 그룹별로 표준오차를 별도로 구합니다. 검정 통계량 계산식은 다음과 같습니다.
$ t = \frac{ (\overline{x_1} - \overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $
검정 통계량의 분자가 같습니다. 두 그룹의 평균 간의 차이에 해당합니다. 분모는 평균 간 차이의 전체 표준 오차 추정값입니다. 그룹별 별도 표준 오차를 근거로 합니다.
t 값에 대한 자유도 계산은 등분산보다 이분산의 경우에 더 복잡하며, 일반적으로 통계 소프트웨어 패키지를 이용합니다. 기억해야 할 요점은 표준편차의 합동 추정값을 사용할 수 없으면 간단한 자유도 계산식도 사용할 수 없다는 것입니다.
소프트웨어를 사용하여 정형화된 정규성 검정을 수행할 수도 있습니다. 위 그림은 JMP 소프트웨어를 사용한 정규성 검정 결과를 보여줍니다. 각 그룹을 따로 검정합니다. 남성에 대한 검정과 여성에 대한 검정에서 모두 정규 분포 가정을 기각할 수 없습니다. 남성과 여성에 대한 체지방 데이터가 정규 분포를 따른다는 가정 아래 진행할 수 있습니다.
이분산 검정
이분산 검정은 복잡합니다. 여기서는 계산 과정을 자세히 다루지는 않고 JMP 소프트웨어의 결과만 보여드립니다. 아래 그림은 체지방 데이터의 이분산 검정 결과를 보여줍니다.
이분산에 대한 여러 유형의 검정을 자세히 알아보지 않고 바로 F 검정을 사용해보겠습니다. 검정을 시작하기 전에 실제로 분산이 동일하지 않은 데 동일하다는 결론을 내릴 위험률 10%를 용인하기로 결정합니다. 즉, α = 0.10으로 설정합니다.
대부분의 통계 소프트웨어와 마찬가지로 JMP도 검정에 대한 p 값을 보여줍니다. 관측된 것보다 심한 검정 통계량의 극단값을 찾을 가능도를 나타내는 값입니다. p 값을 수작업으로 계산하기는 어렵습니다. 위 그림에서 F 검정 통계량이 1.654일 때 p 값은 0.4561입니다. 이 값은 지정한 α 값보다 큽니다(0.4561 > 0.10). 이 경우에는 등분산 가설을 기각하지 못합니다. 실제 조건에서 두 그룹에 대한 등분산 가정 아래 2표본 t-검정을 진행할 수 있습니다.
p 값 이해
시각화를 사용하여 검정 통계량이 분포에서 극단값일 가능성이 높은지 확인할 수 있습니다.아래 그림은 자유도 21의 t 분포를 보여줍니다.
여기서 검정은 양측이고 α = 0.05로 설정하기 때문에 그림에서 2.080이라는 값에 의해 두 꼬리 각각에서 데이터의 2.5%가 "절단"됨을 알 수 있습니다. 전체 데이터의 5%만 꼬리에서 2.080보다 더 멀리 벗어납니다. 검정 통계량 2.80이 절단 점을 벗어나므로 평균이 같다는 귀무가설을 기각합니다.
소프트웨어에 모든 사항 통합
아래 그림은 JMP 소프트웨어의 체지방 데이터에 대한 2표본 t-검정의 결과를 보여줍니다.
등분산을 가정하는 2표본 t-검정의 결과가 앞에서 계산한 결과와 동일합니다. 검정 통계량은 2.79996입니다. 소프트웨어에서 보여주는 결과는 양측 검정 결과와 단측 검정 결과입니다. 여기서 원하는 것은 양측 검정입니다(Prob > |t|). 귀무가설은 남성과 여성의 평균 체지방이 같다는 것입니다. 대립가설은 평균 체지방이 같지 않다는 것입니다. 단측 검정은 단측 대립가설에 대한 것입니다. 예를 들어 남성의 평균 체지방이 여성의 평균보다 작다는 귀무가설에 대한 것입니다.
여기서 두 그룹의 평균 체지방이 같다는 가설은 기각할 수 있고, 남성과 여성 모집단 사이 체지방이 다르다는 증거가 있다는 결론을 내립니다. 소프트웨어에서 보여주는 p 값은 0.0107입니다. 실제로 다르지 않은데 남성과 여성의 평균 체지방이 다르다고 결론지을 위험률을 5%로 정했습니다. 통계 검정을 수행하기 전에 이러한 결정을 내리는 것이 중요합니다.
그림은 또한 등분산을 가정하지 않는 t-검정에 대한 결과도 보여줍니다. 이 검정에서는 표준편차의 합동 추정값을 사용하지 않습니다. 위에서 설명했듯이, 검정에 사용되는 자유도 계산식도 복잡합니다. 자유도가 20.9888이라는 사실을 알 수 있습니다. 소프트웨어에서 보여주는 p 값은 0.0086입니다. 다시 한 번 5% 위험률 결정 아래 남성과 여성의 평균 체지방이 같다는 귀무가설을 기각할 수 있습니다.
기타 주제
그룹이 세 개 이상일 때는 어떻게 하는가?
정규 분포에서 표집하지 않은 데이터는 어떻게 하는가?
표본 크기가 매우 작으면 정규성을 검정하기 어려울 수도 있습니다. 이러한 경우, 측정값에서 파악되는 정보를 활용해야 할 수도 있습니다. 체지방 데이터를 예로 들면, 트레이너는 체지방의 기본 분포가 정규 분포를 따른다는 사실을 알고 있습니다. 표본이 아주 작더라도 트레이너는 정규성을 가정하고 t-검정을 진행할 수 있습니다.
기본 측정값이 정규 분포를 따르지 않음을 알고 있으면 어떻게 할까요? 아니면 표본 크기가 크고 정규성 검정이 기각되면 어떻게 할까요? 이러한 상황에서는 비모수 분석을 사용할 수 있습니다. 이러한 분석 유형은 특정 분포에서 데이터 값이 추출되었다는 가정에 의존하지 않습니다. 2표본 t-검정의 경우, 사용할 수 있는 비모수 검정은 Wilcoxon 순위합 검정입니다.