평균, 중앙값 및 최빈값
평균이란?
평균은 데이터 값 집합의 중심을 측정합니다. 연속형 데이터의 경우 평균은 데이터 값의 평균입니다.
평균이 사용되는 방식
데이터 값 표본의 평균은 알 수 없는 실제 모집단 평균을 추정하는 데 사용됩니다. 평균은 종종 데이터 집합의 간단한 요약 통계로 사용됩니다. 또한 표준편차와 함께 통계적 구간, 가설 검정 통계량, 관리도 한계 계산에도 사용됩니다.
평균과 관련하여 고려해야 할 몇 가지 문제점은?
평균은 극단값의 영향을 받을 수 있습니다. 극단값이나 왜곡된 분포가 있는 경우에는 중앙값으로 중심을 측정하는 것이 더 나을 수 있습니다. 평균을 사용하기 전에 데이터에 극단값이 있는지 확인하고 그래프에서 데이터가 대략적으로 대칭인지 살펴보세요.
중앙값이란?
중앙값은 표본 데이터의 50번째 백분위수입니다. 즉, 데이터 값의 50%가 중앙값보다 위에 있고 50%가 중앙값보다 아래에 있습니다. 중앙값은 표본에 있는 데이터 중심의 또 다른 추정값입니다.
최빈값이란?
최빈값은 데이터에서 가장 자주 발생하는 값입니다. 반복되는 값이 포함되지 않은 데이터 집합에는 최빈값이 없습니다. 동일한 빈도로 반복되는 여러 개의 값이 있는 데이터 집합에는 여러 개의 최빈값이 있을 수 있습니다. 최빈값은 데이터의 중심을 추정하는 데 사용되는 또 다른 통계입니다.
평균은 데이터 집합의 중심을 나타냅니다.
일련의 데이터 값을 그림 1과 같이 그린다고 가정해 보겠습니다. 가로 축에는 데이터 값이 표시됩니다. 세로 축은 각 특정 데이터 값을 지닌 데이터 포인트를 나타냅니다. 통계적인 용어로 이를 히스토그램 또는 데이터 값의 분포라고 합니다. 평균은 데이터의 중심을 추정합니다.
모집단 평균이란?
모집단 평균은 이론적 모집단의 중심이며, 많은 경우 알 수 없습니다.
모집단을 알고 있는 경우를 예로 들어 보겠습니다. 1950년 이후 북대서양 허리케인이 상륙할 때의 평균 풍속을 알고 싶은 경우를 가정해 보겠습니다. 이는 비교적 작은 모집단입니다. 1950년 이후 상륙한 모든 북대서양 허리케인의 데이터를 사용할 수 있습니다. 따라서 모집단 평균을 쉽게 계산할 수 있습니다.
그러나 많은 경우 전체 모집단의 데이터가 없기 때문에 실제 모집단 평균을 알 수 없습니다.
계산식에서 모집단 평균은 "소문자 m" 또는 "mu"에 상응하는 그리스 문자로 표시됩니다. 해당하는 기호는 μ입니다.
표본 평균이란?
알 수 없는 모집단 평균을 추정하려면 데이터 표본을 수집한 다음 해당 표본의 평균을 계산합니다.
표본 평균은 표본에 있는 데이터의 중심을 측정합니다. 이는 모집단 평균의 추정값입니다.
계산식에서 표본 평균의 통계 기호는 위에 선이나 막대가 있는 x입니다. 이는 "x bar"라고 하며, 표시되는 모습은 x̅입니다.
표본 평균, 산술 평균, 표본 평균의 차이점이란?
표본 평균에 사용되는 세 개의 항입니다. 이러한 항은 동일합니다.
모집단 평균을 알 수 없는 경우가 많으므로, "평균"이라는 용어는 "표본 평균"의 의미로 사용되곤 합니다. 문서에 “평균 소득”이나 “평균 기온”이 언급된 경우, 이는 일반적으로 표본 데이터의 평균을 의미하는 것입니다.
50%가 '평균보다 높다'는 것은 사실이 아닙니다
많은 사람은 데이터 값의 50%가 표본 평균보다 위에 있고 50%가 표본 평균보다 아래에 있다고 가정하는 흔한 실수를 범합니다. 많은 경우 이는 사실이 아닙니다. 이 실수로 인해 평균과 중앙값이 혼동됩니다. 평균과 중앙값은 일부 상황에서만 동일합니다.
평균을 계산하는 방법
평균을 계산하려면 표본의 데이터 값의 모든 숫자를 더한 다음 데이터 값의 개수로 나눕니다. 간단한 예를 통해 이러한 계산을 살펴보겠습니다.
데이터 값이 4, 5, 6이라고 가정해 보겠습니다. 평균을 계산하는 방법은 다음과 같습니다.
$\frac{(4+5+6)}{3} = \frac{15}{3} = 5$
일반적으로 평균은 소프트웨어를 사용하여 계산합니다. 평균을 계산하는 계산식은 다음과 같습니다:
$\overline{x}=\frac{Σx_i}{n}$
위 계산식에서 표본에는 n개의 데이터 값이 있습니다. 각 데이터 값은 xi로 표시됩니다. 합계 기호 $Σ$는 예에서와 마찬가지로 데이터 값을 합산해야 함을 나타냅니다.
알 수 없는 모집단 평균의 경우, 모집단 크기는 종종 대문자 N으로 표시됩니다. 드물게 모집단 평균을 계산할 수 있는 경우, 공식은 동일하며 n 대신 N이 사용됩니다.
중앙값
중앙값은 표본 데이터의 50번째 백분위수입니다. 데이터 값의 50%가 중앙값보다 위에 있고 50%가 중앙값보다 아래에 있다는 것은 항상 사실입니다. 평균과 마찬가지로, 실제 알 수 없는 모집단 중앙값과 표본 중앙값이 있습니다. 실제 모집단 중앙값은 거의 알 수 없습니다.
평균과 중앙값은 모두 데이터의 중심을 추정하며, 둘 다 보고되는 경우가 많습니다. 아래와 같이 중앙값은 극단적인 데이터 값이나 대칭이 아닌 데이터의 영향을 덜 받습니다.
중앙값을 계산하는 방법
중앙값을 계산하려면 먼저 표본 데이터 값을 낮은 값에서 높은 값 순으로 정렬한 다음 중간 값을 찾습니다.
이는 몇 가지 간단한 예시를 통해 보다 쉽게 이해할 수 있습니다.
데이터 값이 다시 4, 5, 6이라고 가정해 보겠습니다.
먼저 값을 낮은 값에서 높은 값 순으로 정렬합니다(4 – 5 – 6).
이 예의 중간 값인 5가 중앙값입니다. 데이터의 절반은 중앙값 위에, 절반은 중앙값 아래에 있습니다.
두 번째 예로, 표본에 짝수 개수의 데이터 값(7, 4, 5, 6)이 있다고 가정해 보겠습니다. 이 경우 단일 중간 값이 없습니다.
먼저 데이터 값을 낮은 값에서 높은 값 순으로 정렬합니다(4 – 5 – 6 –7).
다음으로 두 개의 중간 값인 5와 6을 찾습니다.
셋째, 두 값을 더하고 2로 나누어 이 두 값의 평균을 구합니다. 이의 결과가 중앙값입니다. 이 예의 경우:
$\frac{5+6}{2} = \frac{11}{2} = 5.5$
두 예 모두에서 중앙값은 중간 값입니다. 표본 데이터의 절반은 중앙값 위에, 절반은 중앙값 아래에 있습니다.
두 번째 예의 데이터 값은 4, 5, 5.5, 6, 7이므로, 중앙값 5.5는 데이터에 대해 정렬된 표본 값의 중간에 있습니다.
일반적으로 중앙값은 소프트웨어를 사용하여 계산합니다.
최빈값
최빈값은 데이터의 중심을 추정하는 데 사용되는 또 다른 통계입니다. 최빈값은 가장 자주 발생하는 값입니다.
예를 들어 데이터 값이 3, 4, 4, 4, 5, 6이라고 가정해 보겠습니다.
최빈값이 4인 이유는 가장 빈번한 값이기 때문입니다.
대부분의 통계 소프트웨어는 최빈값을 계산합니다. 그러나 실제로 최빈값은 평균이나 중앙값만큼 자주 사용되지 않습니다. 따라서 이 페이지의 나머지 부분에서는 후자의 두 가지에 중점을 둘 것입니다.
극단적인 데이터 값이 표본 평균과 표본 중앙값에 미치는 영향
표본 평균은 극단적인 데이터 값에 민감할 수 있습니다. 위의 예를 약간 변경하여 표본 데이터 값이 4, 5, 12라고 가정해 보겠습니다.
표본 평균은 다음과 같습니다.
$\frac{4+5+12}{3} = \frac{21}{3} = 7$
표본 중앙값은 정렬된 데이터 값 4 – 5 – 12의 중간 값인 5입니다.
이를 앞의 예와 비교해 보세요. 데이터 값 4, 5, 6은 평균과 중앙값이 5였습니다. 데이터 값 하나를 6에서 12로 변경해도 중앙값은 변화하지 않지만, 평균은 5에서 7로 변화합니다.
큰 데이터 집합의 경우, 하나의 극단적인 데이터 값이 표본 평균에는 더 큰 영향을 주지만 표본 중앙값에는 더 작은 영향을 미칠 수 있습니다. 중앙값은 이상치나 극단적인 데이터 값에 대해 로버스트하다고 알려져 있습니다.
아래 분포는 이상치가 제외된 데이터 집합(그림 2)와 이상치가 포함된 데이터 집합(그림 3)를 보여줍니다.
두 데이터 집합의 중앙값은 44.6입니다. 이상치가 없는 데이터의 평균은 45.3이고, 이상치가 있는 데이터의 평균은 45.6입니다. 두 히스토그램 모두의 축 척도는 20~90입니다.
주의! 단지 존재한다는 이유로 극단적인 데이터 값을 삭제하지는 마세요. 우선 극단적인 데이터 값이 오류인지 아니면 이상 징후인지 알아보세요. 오류인 경우 값을 수정해야 합니다. 값을 오류로 식별할 수 없는 경우 극단적인 데이터 값을 생략해서는 안 됩니다. 이 경우 의심스러운 데이터 포인트를 사용한 분석과 사용하지 않은 분석 모두를 보고할 수 있습니다.
예를 들어 혈압 데이터를 수집한다고 가정해 보겠습니다. 표본에 포함된 사람의 수축기 혈압이 95입니다. 이는 낮은 값이지만 합리적입니다. 그러나 같은 사람의 이완기 혈압이 95이라면 이 계산은 올바르지 않을 가능성이 매우 높습니다. 이 경우 원본 데이터를 찾고 이 데이터 포인트가 오류를 나타내는지 확인해야 합니다.
데이터 대칭이 표본 평균 및 표본 중앙값에 미치는 영향
데이터가 대칭이 아닌 경우 표본 평균과 표본 중앙값이 다릅니다. 데이터가 비대칭인 경우 왜곡된 분포가 있다고 합니다.
대칭, 왼쪽으로 치우친 분포, 오른쪽으로 치우친 분포의 세 가지 분포를 고려해야 합니다.
그림 4의 히스토그램은 거의 대칭에 가까운 데이터를 보여줍니다. 그림을 가운데에서 반으로 접는다고 생각해보면 양쪽이 거의 동일할 것입니다. 평균과 중앙값은 매우 유사합니다.
그림 5의 히스토그램은 대칭이 아닌 데이터를 보여줍니다. 이 데이터는 낮은 값에 더 많은 가중치를 부여하며, 왼쪽으로 치우쳐 있습니다. 왜도 통계는 음수이고 평균은 중앙값보다 작습니다.
그림 6의 히스토그램도 대칭이 아닌 데이터를 보여줍니다. 이 데이터는 높은 값에 더 많은 가중치를 부여하며, 오른쪽으로 치우쳐 있습니다. 왜도 통계는 양수이고 평균은 중앙값보다 큽니다.
평균과 중앙값 사용이 적합한 경우
그림 7~9는 평균과 중앙값을 사용하기에 적합한 데이터 유형을 보여줍니다.
연속형 데이터: 평균과 중앙값 사용이 적합함
평균과 중간값은 연속형 데이터에 적합합니다. 이러한 데이터는 가능한 값들이 많은 척도로 측정됩니다. 다음은 연속형 데이터의 몇 가지 예입니다.
- 연령
- 혈압
- 가중치
- 온도
- 속도
이러한 모든 예에 대해서는 평균과 중앙값을 계산하는 것이 적합합니다.
순서형 또는 명목형 데이터: 평균과 중앙값 적용 불가
가능한 값이 몇 개뿐인 척도로 측정되는 순서형 또는 명목형 데이터에는 히스토그램이 적합하지 않습니다.
순서형 데이터의 경우, 표본이 여러 그룹으로 나뉘며 반응 순서가 정의됩니다. 예를 들어, "매우 비동의"부터 "매우 동의"까지의 척도로 의견을 묻는 설문조사(그림 8)에서 응답자의 반응은 순서형입니다.
명목형 데이터에서도 표본을 여러 그룹으로 나누지만 특정 순서는 없습니다. 이의 두 가지 예는 생물학적 성별과 거주 국가입니다. 드물게 명목형 데이터가 숫자 값으로 코딩되면 평균을 계산할 수 있습니다. 평균의 해석은 코딩에 따라 달라집니다. 예를 들어 성별의 경우 남성을 0, 여성을 1로 코딩하고 표본 평균을 계산하면 0.6이라는 값을 얻을 수 있습니다. 이 값은 표본 내 여성 비율을 나타내며, 합리적입니다. 국가의 경우, 국가명을 숫자로 코딩하면 평균을 계산할 수 있습니다. 그러나 이는 합리적이지 않으며, 평균의 유의미한 해석이 불가능할 것입니다.