표준편차
표준편차란?
표준편차는 데이터 값 집합의 스프레드를 측정합니다. 높은 표준편차는 데이터 값의 광범위한 스프레드를 나타내고, 낮은 표준편차는 데이터 집합의 평균 주위에 군집된 값의 좁은 스프레드를 나타냅니다.
표준편차는 어떻게 사용됩니까?
표준편차는 데이터 값 집합의 변동성을 조사하는 데 사용됩니다. 또한 평균과 함께 통계적 구간, 가설 검정 통계량, 관리도 한계 계산에도 사용됩니다.
표준편차와 관련하여 고려해야 할 몇 가지 문제점은?
표준편차는 극단값 및/또는 소규모 데이터 집합의 영향을 받을 수 있습니다. 이상치가 분석에 어떤 영향을 미칠 수 있는지 고려해야 합니다. 또한 표준편차는 연속형 데이터에만 관련성이 있습니다.
표준편차는 데이터 집합의 스프레드를 설명합니다.
일련의 데이터 값을 아래 그래프와 같이 그린다고 가정해 보겠습니다. 가로 축에는 데이터 값이 표시됩니다. 세로 축은 각 데이터 값의 빈도를 측정합니다. 통계적인 용어로 이는 데이터 값의 히스토그램 또는 분포라고 합니다. 표준편차는 데이터의 스프레드 또는 너비를 추정하는 단일 숫자입니다.
모집단 표준편차란?
통계에서 모집단은 이해하고 결론을 도출하려는 전체 데이터 집합입니다. 많은 경우 모집단의 규모로 인해 모집단의 모든 요소에 대한 데이터를 수집하는 것은 불가능합니다. 이러한 상황에서 모집단 표준편차는 이론적 모집단의 스프레드를 측정하며 거의 항상 알 수 없습니다.
모집단을 알고 있는 경우를 예로 들어 보겠습니다. 1950년 이후 북대서양 허리케인이 상륙할 때의 풍속 스프레드를 알고 싶은 경우를 가정해 보겠습니다. 이는 비교적 작은 모집단입니다. 1950년 이후 상륙한 모든 북대서양 허리케인의 데이터를 쉽게 사용할 수 있으므로 모집단 표준편차를 계산할 수 있습니다.
표본 표준편차란?
알 수 없는 모집단 표준편차를 추정하려면 데이터 표본을 수집해야 합니다. 그런 다음 해당 표본의 표준편차를 계산해야 합니다. 표본 표준편차는 표본 내 데이터의 스프레드를 측정합니다. 이는 모집단 표준편차의 추정값입니다.
표준편차와 분산의 차이는?
표준편차는 분산의 제곱근입니다. 표준편차와 분산은 모두 스프레드의 측정입니다. 표준편차의 단위는 데이터의 단위와 같습니다. 예를 들어 연령을 연 단위로 측정하는 경우 표준편차도 연 단위로 표시됩니다. 이것이 사람들이 분산 대신 표준편차를 사용하는 이유 중 하나입니다. “연령(년)" 은 “연령(제곱년)”보다 더 쉽기 때문입니다.
표준편차와 변동 계수(CV)의 차이점은?
변동 계수(CV)는 표준편차를 평균으로 나눈 값입니다. CV는 공통 척도로 데이터 집합의 표준편차를 비교하는 데 사용됩니다. CV는 측정 시스템의 정밀도를 나타내는 지표로 사용됩니다.
가능한 표준편차 값이란?
표준편차는 거의 항상 양수 값입니다. 한 가지 예외로 데이터 집합의 모든 값이 동일한 경우 표준편차는 0입니다. 데이터에는 변동이나 스프레드가 없습니다.
표준편차를 계산하는 방법
표본 표준편차를 계산하려면 먼저 표본 평균을 계산해야 합니다. 그런 다음 각 데이터 값에 대해 값과 표본 평균의 차를 찾습니다. 다음으로 찾은 차를 제곱하고 합산합니다. 마지막으로 이 합계를 데이터 값의 개수에서 1을 뺀 값으로 나누어 표본 분산을 구합니다. 표준편차를 구하려면 제곱근을 구합니다. 표준편차의 단위는 데이터의 단위와 같습니다.
간단한 예를 통해 이러한 계산을 살펴보겠습니다. 6명의 안정시 심박수를 측정한다고 가정해 보겠습니다. 대다수의 사람들은 안정시 심박수가 분당 60~100회(BPM)입니다. 운동선수의 경우 건강한 안정시 심박수가 최저 40일 수 있습니다. 높은 심박수는 건강 문제일 수도 있지만, 단순히 운동 중 심박수를 측정한 결과일 수도 있습니다.
데이터 값이 다음과 같다고 가정해 보겠습니다.
55 |
60 |
65 |
75 |
80 |
85 |
먼저, 데이터 값을 더하고 값의 개수로 나누어 표본 평균을 계산합니다.
$\frac{(55+60+65+75+80+85)}{6} = \frac{420}{6} = 70$
다음으로 각 데이터 값과 표본 평균의 차를 계산합니다.
평균과의 차 |
---|
55-70 = -15 |
60-70 = -10 |
65-70 = -5 |
75-70 = 5 |
80-70 = 10 |
85-70 = 15 |
차를 계산하면 각 데이터 값이 표본 평균과 얼마나 떨어져 있는지 알 수 있습니다.
다음으로 차를 제곱합니다. 단순히 차를 더하기만 하면 0이 되며, 이는 데이터에 스프레드가 없음을 의미합니다. 이는 사실이 아닙니다. 차를 합산하기 전에 차를 제곱하면 표본 평균 위 및 아래 점 모두에 대해 평균과의 거리에 대한 양의 측정값을 도출할 수 있습니다.
평균과의 차 | 차의 제곱값 |
---|---|
55-70 = -15 | 225 |
60-70 = -10 | 100 |
65-70 = -5 | 25 |
75-70 = 5 | 25 |
80-70 = 10 | 100 |
85-70 = 15 | 225 |
다음으로 제곱된 차의 합을 구합니다.
$225+100+25+25+100+225=700$
데이터 값이 6개이므로, 위의 합을 6 – 1 = 5로 나눕니다.
$\frac{700}{5} = 140$
6으로 나누지 않는 이유는 무엇일까요? 간단한 대답은 이 계산에 표본 평균이 사용되었다는 것입니다. 표본 평균과 데이터이터 값 5개를 알고 있으면 여섯 번째 데이터 포인트를 계산할 수 있습니다. 이 예에서는 평균을 계산할 때 자유도 1개라고 하는 것을 사용합니다. 통계적으로 n-1로 나누면 비편향 분산 추정값을 얻을 수 있습니다.
이로써 표본 분산을 파악했습니다. 다만 이는 "분당 심박수 제곱" 단위로 되어 있어 해석하기 어렵습니다. 따라서 마지막 단계는 제곱근을 구하여 표본 표준편차를 구하는 것입니다.
$\sqrt{140}=11.8$
6명의 표본에 기반하여 표본 평균은 70BPM, 표본 표준편차는 11.8BPM입니다.
일반적으로 표본 표준편차는 소프트웨어를 사용하여 계산합니다. 표본 표준편차의 계산식은 다음과 같습니다.
$\sqrt{\frac{Σ^n_{i=1}(x_i - \overline{x})^2}{n-1}}$
위 계산식에서 표본에는 n개의 데이터 값이 있습니다. 각 데이터 값은 X로 표시됩니다. 기호 x̅는 표본 평균을 나타냅니다. Σ 기호는 합계 기호입니다. 이 계산식에서 이는 예에서와 마찬가지로 데이터 값과 표본 평균의 각 제곱 차를 더해야 함을 의미합니다.
모집단 표준편차
드물게 전체 모집단의 데이터가 있는 경우에는 표준편차 계산이 모집단 표본의 계산과 약간 다릅니다. 전체 모집단의 경우 모집단 크기는 대문자 N으로 표시됩니다. 계산식은 다음과 같습니다.
$\sqrt{\frac{Σ^N_{i=1}(x_i - μ)^2}{N}}$
위 계산식은 모집단 크기(N)와 모집단 평균(μ)을 사용합니다. 계산식의 원리는 표본 표준편차에 대한 계산식과 동일합니다.
표준편차의 이해
표준편차의 시각화
아래 그림 3은 표준편차가 어떻게 데이터 값의 분포를 추정값인지를 나타냅니다. 중심선은 이전 예의 심박수 데이터 값 6개의 표본 평균(70)을 나타냅니다. 65와 80의 경우, 이 그림은 평균과의 차 계산을 강조하여 나타냅니다.
데이터 값이 평균보다 낮으면 차가 음수이고, 데이터 값이 평균보다 높으면 차가 양수인 것을 알 수 있습니다. 차를 제곱하면 양수 차와 음수 차가 서로 상쇄되지 않습니다.
제곱된 차를 모두 더하면 각 데이터 값과 평균 간 스프레드의 합을 도출할 수 있습니다. 합이 작을수록 데이터 값의 스프레드가 더 작은 것이며, 합이 클수록 데이터 값의 스프레드가 더 큰 것입니다.
표준편차의 해석
대부분의 경우 평균과 표준편차를 모두 보고하게 됩니다. 이는 표준편차를 상황에 맞게 파악하는 데 도움이 됩니다.
표준편차가 작을수록 더 많은 데이터 값이 표본 평균에 가깝다는 것을 의미합니다. 표준편차가 클수록 데이터 값이 더 분산되어 있고 일부 값이 표본 평균에서 더 멀리 떨어져 있는 것입니다.
예를 들어 아래 그림 4에서 데이터의 표본 평균이 13이라고 가정해 보겠습니다. 표본 표준편차가 3(주황색 실선)이면 더 많은 데이터가 표본 평균에 가까운 것입니다. 표본 표준편차가 6(파란색 점선)이면 데이터가 더 많이 분산되어 있고 일부 값은 표본 평균에서 멀리 떨어져 있는 것입니다.
극단적인 데이터 값이 표본 표준편차에 미치는 영향
극단적인 데이터 값은 표본 표준편차에 상당한 영향을 미칠 수 있습니다. 심박수 예를 계속 살펴보겠습니다.
앞서 심박수 데이터 값은 다음과 같았습니다.
55 |
60 |
65 |
75 |
80 |
85 |
표본 평균은 70BPM이고 표본 표준편차는 11.8BPM이었습니다.
이제 한 사람의 심박수를 추가로 측정했다고 가정해 보겠습니다.
55 |
60 |
65 |
75 |
80 |
85 |
140 |
모든 계산을 다시 살펴보지는 않겠지만, 이제 표본 평균은 80BPM이고 표본 표준편차는 28.6BPM입니다. 이 단일 극단값은 표본 평균과 표본 표준편차 모두에 중요한 영향을 미쳤습니다.
주의! 극단적인 데이터 값이 옳지 않다고 해서 삭제하지는 마세요. 먼저 극단적인 데이터 값이 오류의 결과인지 알아보세요. 오류의 결과인 경우 올바른 값을 찾으려고 노력해야 합니다. 오류가 발생했는지 확인할 수 없는 경우 극단적인 데이터 값을 생략해서는 안 됩니다. 이 경우 의심스러운 데이터 포인트를 사용한 분석과 사용하지 않은 분석 모두를 보고할 수 있습니다.
심박수 데이터의 경우, 극단값은 사람의 실제 안정시 심박수일 수 있습니다. 이러한 경우는 데이터에 포함해야 합니다. 또는 운동 직후의 심박수가 극단값일 수도 있는데, 이는 안정시 심박수를 측정한 다른 데이터 값과 다릅니다. 요점은 극단적인 데이터 값을 처리하는 방법을 정하기 전에 추가적인 조사를 실시해야 한다는 것입니다.
통계 기호 사용
모집단 표준편차와 분산
계산식에서 모집단 표준편차는 그리스 문자 “시그마”로 표시됩니다. 기호는 σ입니다.
모집단 분산은 σ2로 표시됩니다.
많은 통계 계산식에서는 가설 검정을 정의하거나 분석 계산식에 σ를 사용합니다.
거의 대부분의 경우 모집단 표준편차나 모집단 분산을 알 수 없다는 점을 기억하세요.
표본 표준편차와 분산
게산식에서 표본 표준편차는 기울임꼴 소문자 s로 표시됩니다.
계산식에서 표본 분산은 s2로 표시됩니다.
표준편차 사용이 적합한 경우
연속형 데이터: 예
표준편차는 연속형 데이터에 적합합니다. 이 데이터는 가능한 값들이 많은 척도로 측정됩니다. 다음은 연속형 데이터의 몇 가지 예입니다.
- 연령
- 혈압
- 가중치
- 온도
- 속도
이러한 모든 예에 대해서는 표준편차를 계산하는 것이 적합합니다.
순서형 또는 명목형 데이터: 부적합
여기에 정의된 대로 표준편차는 순서형 또는 명목형 데이터에 적합하지 않습니다. 이 데이터는 가능한 값이 몇 개뿐인 척도로 측정됩니다. 일련의 순서형 또는 명목형 데이터 값의 스프레드를 추정하는 다른 통계도 있습니다.
순서형 데이터는 일반적으로 특정 순서가 있는 그룹으로 나뉩니다. 예를 들어, "매우 비동의"부터 "매우 동의"까지 척도로 의견을 묻는 설문조사에서 응답자의 반응은 순서형입니다. 아래 그림 6을 참조하십시오.
또한 명목형 데이터는 표본을 그룹으로 나누지만 특정 순서는 없습니다. 이의 두 가지 예는 생물학적 성별과 거주 국가입니다(그림 7). 표본에서 남성에 M을 사용하고 여성에 F를 사용하거나 0과 1을 사용할 수 있습니다. 국가의 경우, 국가 약칭을 사용하거나 숫자를 사용하여 국가 이름을 코드로 지정할 수 있습니다. 이 데이터에 숫자를 사용하면 표본 표준편차를 계산할 수 있지만, 이는 합리적이지 않습니다.
기타 변동 측정
표준편차는 데이터의 스프레드를 추정하는 한 가지 방법입니다. 범위와 사분위간 범위(IQR)도 스프레드를 추정합니다. 표준편차와 달리 이러한 통계 중 어느 것도 데이터 중심을 포함하지 않습니다. 이러한 통계는 작은 데이터 집합(범위) 또는 왜곡된 데이터 집합(IQR)과 함께 사용할 수 있습니다.
범위
범위는 데이터의 가장 낮은 값과 가장 높은 값의 차입니다.
사분위수 범위(IQR)
사분위수 범위는 데이터의 25번째 백분위수와 75번째 백분위수의 차입니다. 따라서 IQR은 범위나 표준편차보다 극단값의 영향을 덜 받습니다. 데이터에 극단값이 있거나 데이터가 왜곡된 경우, 데이터 집합의 변동을 설명하는 데 있어 IQR이 좋은 선택일 수 있습니다.