상자 그림
상자 그림이란?
상자 그림은 연속형 변수에 대한 데이터의 분포를 보여줍니다.
상자 그림은 어떻게 사용하는가?
상자 그림은 데이터의 중심과 산포를 확인하는 데 유용합니다. 정규성을 확인하거나 이상치일 가능성이 있는 점을 찾아내기 위한 시각적 도구로 활용할 수도 있습니다.
상자 그림이 상자수염도와 동일한가?
상자 그림을 이상치 상자 그림 또는 분위수 상자 그림이라고도 합니다. 각각 상자 그림을 그리는 방법의 변형입니다.
생각해볼 문제점은 무엇인가?
상자 그림을 사용할 때는 데이터에 극단값이 있는지 확인합니다. 데이터 집합이 매우 작을 경우 주의합니다. 범주형 또는 명목형 변수에는 막대 차트를 대신 사용합니다.
데이터의 분포를 보여주는 상자 그림
"상자 그림"이라는 용어는 이상치 상자 그림을 가리키며, 상자수염도 또는 Tukey 상자 그림이라고도 합니다. 기타 유형의 상자 그림에 대해서는 아래 "이상치 상자 그림과 분위수 상자 그림 비교" 섹션을 참조하십시오.
상자 그림은 기본적으로 다음과 같은 부분으로 구성됩니다.
- 상자 안의 중심선은 데이터의 중앙값을 나타냅니다. 데이터의 절반은 이 값의 위쪽에, 절반은 아래쪽에 있습니다. 데이터가 대칭이면 중앙값이 상자 중앙에 옵니다. 데이터가 편중되어 있으면 중앙값이 상자의 위쪽 또는 아래쪽에 더 근접해 있습니다.
- 상자 맨 아래와 맨위는 25 번째와 75 번째 분위수 또는 백분위수를 나타냅니다. 두 가지 분위수를 사분위수라고도 하는데, 그 이유는 각각이 데이터의 1/4(25%)을 잘라내기 때문입니다. 상자의 길이는 두 백분위수 간 차이이며, 사분위수 범위(IQR)라고 합니다.
- 상자에서 확장된 선을 수염이라고 합니다.수염은 데이터의 기대 변동을 나타냅니다. 수염은 상자의 맨 위와 맨 아래에서 IQR의 1.5배까지 확장됩니다. 데이터가 수염 끝까지 확장되지 않을 경우, 수염은 최소 및 최대 데이터 값까지 확장됩니다. 수염 끝의 위쪽 또는 아래쪽에 놓이는 값이 있으면 점으로 표시됩니다. 이러한 점을 흔히 이상치라고 합니다. 이상치는 기대 변동보다 극단적인 값입니다. 이러한 데이터 점은 이상치인지 아니면 오차인지 확인하기 위해 검토할 가치가 있습니다. 수염에는 이러한 이상치가 포함되지 않습니다.
그림 1에서 상자 그림을 보여줍니다.
그림 1의 그래프에서 중앙값이 상자 중심 근처이므로 데이터 값이 대략적으로 대칭임을 알 수 있습니다. 이에 해당하지 않는 데이터에 대해서는 아래 그림 4를 참조하십시오.
이상치 및 분위수 상자 그림 비교
이상치 및 분위수 상자 그림은 중앙값, 25번째 및 75번째 백분위수를 보여줍니다. 25번째 백분위수는 25번째 분위수이기도 합니다. 즉, 데이터의 25%가 25번째 분위수보다 작습니다. 분위수 상자 그림은 2.5, 10, 90 및 97.5 번째 분위수를 이상치 상자 그림에 합산합니다. 그림 2는 동일한 데이터 집합에 대한 분위수 및 이상치 상자 그림을 보여줍니다.
상자 그림과 히스토그램 비교
상자 그림과 히스토그램은 데이터의 형태를 보여줍니다. 두 가지 모두 비정상 점, 즉 이상치를 식별하는 데 사용할 수 있습니다. 그림 3은 동일한 데이터 집합에 대한 이상치 상자 그림과 히스토그램을 보여줍니다. 예제에서 히스토그램은 수평이 아닌 수직입니다.
데이터에 두 가지 유형의 그래프를 모두 사용하는 것이 유용할 수 있습니다. 데이터가 편중된 경우에 중앙값의 선이 상자 중심 근처에 나타나지 않으므로 상자 그림으로 왜도를 확인하기 좋습니다. 상자 그림은 히스토그램보다 25번째 및 75번째 백분위수를 더 확실히 보여주고, 히스토그램은 상자 그림보다 데이터의 전체 형태를 더 확실히 보여줍니다.
상자 그림은 어떻게 생성하는가?
과거에는 상자 그림이 수작업으로 생성했습니다. 오늘날에는 대부분 소프트웨어를 사용해 상자 그림을 생성하므로 수작업 연산을 피하고 오류를 줄일 수 있습니다. 상자 그림은 5가지 숫자 요약이라는 것을 기반으로 하는데, 바로 최소값, 25번째 백분위수, 중앙값, 75번째 백분위수, 최대값의 5가지 숫자를 가리킵니다. 이 5가지 숫자를 사용하여 상자 그림을 생성할 수 있습니다. 즉, 주어진 데이터 세트를 사용하여 다음 5단계로 상자 그림을 생성할 수 있습니다.
- 중앙값, 25번째 및 75번째 백분위수를 계산합니다.
- 75번째 백분위수와 25번째 백분위수 사이 차이로 사분위수 범위(IQR)를 계산합니다.
- IQR에 1.5를 곱하여 수염의 최대 길이를 계산합니다.
- 이상치를 식별합니다.
- 계산된 통계량을 사용하여 결과를 표시하고 상자 그림을 생성합니다.
상자 그림의 예
아래 상자 그림의 시리얼 데이터는 76종류의 시리얼에 대한 1회분당 칼로리 측정 결과를 보여줍니다. 칼로리 변수는 연속형이기 때문에 상자 그림이 적합합니다.
데이터가 편중되어 중앙값 102가 75번째 백분위수인 200보다 25번째 백분위수인 101에 훨씬 더 근접합니다.
상자 그림에 평균 추가
사용하는 소프트웨어에 따라 상자 그림을 개선할 수 있습니다. JMP는 그림 5와 같이 평균 다이아몬드를 추가할 수 있습니다. 다이아몬드의 맨 위와 맨 아래 부분은 평균에 대한 95% 신뢰 구간입니다. 다이아몬드의 중심은 표본 평균으로, 모집단 평균의 추정값입니다.
시리얼 데이터의 경우, 평균이 중앙값보다 높습니다. 평균과 중앙값 사이 차이를 통해 이러한 데이터가 편중되었으며, 정규 분포에서 표집되지 않을 가능성이 있음을 알 수 있습니다.
JMP를 사용하면 그래프에 다양한 기능도 추가할 수 있습니다. 그림 6의 상자 그림에는 평균 다이아몬드 가운데 굵은 녹색선이 삽입되어 있는데, 이를 통해 평균과 중앙값 사이 차이를 보여줄 수 있습니다.
JMP는 그림 7에서 보듯이 주석 도구를 제공합니다.
이 그래프는 칼로리에 대한 기본 통계량의 요약 정보와 데이터의 분포를 보여주며, 데이터가 편중되고 정규 분포를 따르지 않음을 강조해서 나타냅니다.
상자 그림은 이상치를 강조표시
상자 그림은 흥미로운 데이터 점 또는 이상치를 찾아내는 데 유용합니다. 이러한 값은 데이터 점으로 표시되며 수염을 벗어납니다. 그림 8은 세 개의 이상치가 있는 상자 그림이며, 이상치들은 상한 수염 위에 빨간색 점으로 표시됩니다. 세 점은 IQR의 1.5배를 초과합니다. IQR의 1.5배를 초과하는 점은 데이터의 기대 변동 범위를 벗어납니다.
이상치는 평균, 중앙값 및 기타 백분위수에 영향을 미칩니다. 상자 그림에서 극단점들이 강조 표시되므로 조사할 데이터 점을 쉽게 파악할 수 있습니다. 이상치가 데이터의 오류인지, 아니면 다른 이유로 인해 이상치가 일반적이지 않은지 알아낼 수 있습니다. 예를 들어 그림 8의 세 이상치가 기대값 범위를 벗어난 경우, 해당 이상치가 유효한 데이터 점인지 여부를 확인해야 합니다.
그룹에 대한 상자 그림 예
그룹이 포함된 데이터의 경우, 단순하면서 강력한 그룹 비교 도구를 제공하는 병렬 상자 그림을 생성하여 데이터를 탐색할 수 있습니다.
인체 건강도를 측정하는 한 가지 방법이 체지방률을 측정하는 것입니다. 대부분의 지침에서 남성과 여성의 체지방 간 차이를 기대합니다. (이 데이터에 대한 자세한 내용은 2표본 t-검정 페이지를 참조하십시오) 체지방 변수는 연속형이므로 데이터의 분포를 표시하는 데 상자 그림이 적합합니다. 그림 9는 남성과 여성의 별도 병렬 상자 그림을 보여줍니다.
이 그래프에서 남성이 여성보다 체지방이 낮은 것을 알 수 있습니다. 남성과 여성의 범위가 겹치는 것도 확인됩니다. 남성의 데이터가 여성의 데이터보다 왜도가 심합니다. 두 그룹 모두에 이상치가 없습니다. JMP를 사용하면 이러한 상자 그림에 평균 다이아몬드, 각 평균에 대한 선 및 주석을 추가할 수 있습니다.
그룹에 대해 별도의 병렬 상자 그림을 사용하면 그룹 차이를 확인하고 이상치를 식별하는 데 도움이 될 수 있습니다.
상자 그림과 데이터 유형
연속형 데이터: 상자 그림에 적합
가능한 값들이 무수히 많은 척도로 측정되는 연속형 데이터에는 상자 그림이 적합합니다. 다음은 연속형 데이터의 몇 가지 예입니다.
- 연령
- 혈압
- 가중치
- 온도
- 속도
위의 모든 예에 대한 데이터 분포를 탐색하기 위한 그래픽 도구로는 상자 그림이 적합합니다.
범주형 또는 명목형 데이터: 막대 차트 사용
상자 그림은 가능한 특정 값들이 정해진 척도로 측정되는 범주형 또는 명목형 데이터에 적합하지 않습니다. 상자 그림 대신 막대 차트 를 사용합니다.
범주형 데이터의 경우, 표본이 대개 여러 그룹으로 나뉘며 반응 순서가 정의될 수 있습니다. 예를 들어, "매우 비동의"부터 "매우 동의"까지 척도로 의견을 묻는 설문조사에서 응답자의 반응은 범주형입니다.
명목형 데이터에서도 표본을 여러 그룹으로 나누지만 특정 순서는 없습니다. 명목형 변수의 한 가지 예로 거주 국가를 들 수 있습니다. 국가 약칭을 사용하거나 숫자를 사용하여 국가 이름을 코드로 지정할 수 있습니다. 어느 방식으로든 데이터의 여러 다른 그룹에 이름만 지정하면 됩니다.