막대 그래프
히스토그램이란?
히스토그램은 연속형 변수의 값 또는 분포 형태를 보여줍니다.
히스토그램은 어떻게 사용하는가?
히스토그램을 사용하면 데이터 집합의 중심, 산포 및 형태를 볼 수 있습니다. 또한 정규성을 확인하기 위한 시각적인 도구로도 활용됩니다. 히스토그램은 통계적 품질 관리 분야의 7대 기본 도구 중 하나입니다.
생각해볼 문제점은 무엇인가?
히스토그램은 데이터를 평가하기 좋은 방법을 제공합니다. 데이터에서 극단값 또는 이상치를 확인하고 데이터의 분포를 이해하는 데 활용할 수 있습니다. 변수의 분포는 적절한 통계 분석 도구를 선택할 때를 파악하는 데 중요합니다.
데이터의 형태를 보여주는 히스토그램
히스토그램은 데이터의 형태를 보여줍니다. 가로축에는 데이터 값이 표시되고, 각 막대는 일정한 범위의 값을 포함합니다. 세로축에는 막대의 지정된 범위에 값을 갖는 데이터 점의 개수가 표시됩니다. 그림 1의 히스토그램에서 막대들은 각 범위에 포함된 값의 개수를 나타냅니다. 예를 들어, 첫 번째 막대는 30과 35 사이에 있는 값의 개수를 표시합니다.
히스토그램에서 데이터의 중심은 45 부근이며 데이터가 30 ~ 65 사이에 산포된 것이 확인됩니다. 또한 데이터의 형태는 봉분형에 가깝게 나타납니다. 이러한 형태는 데이터가 정규 분포를 따를 가능성을 암시하는 시각적 증거입니다.
히스토그램과 막대 차트의 차이점은 무엇일까요?
히스토그램과 막대 차트의 주요 차이점은 그리려는 대상 데이터의 유형에 있습니다. 히스토그램은 연속형 데이터에 사용되는 반면, 막대 차트는 범주형 또는 명목형 데이터에 사용됩니다.
히스토그램에서는 막대 사이에 빈 칸이 없습니다. 막대들은 가로 축에 지정된 범위 내에서 발생하는 값들의 개수를 나타냅니다. 막대 차트에서는 막대 사이에 빈 칸을 둘 수 있습니다. 막대들은 각 범주에 대한 측정값을 나타냅니다.
히스토그램은 어떻게 생성합니까?
히스토그램을 생성하려면 각 막대에 해당하는 데이터 값의 범위를 정해야 합니다. 막대의 범위를 계급라고 합니다. 대부분의 경우에 계급의 크기가 동일합니다. 동일한 계급을 사용할 경우, 막대의 높이는 각 계급에서 데이터 값의 빈도를 나타냅니다. 가령 연도 수로 연령 히스토그램을 생성하려는 경우, 10년 기준(0-10, 11-20 등)으로 계급을 정할 수 있습니다. 그러면 막대 높이는 10년 단위의 인구 수를 나타냅니다.
소프트웨어를 사용하면 프로그램에 의해 계급이 정의됩니다. 하지만 몇 가지 소프트웨어 도구를 이용하여 데이터를 탐색하고 이해하기 쉽도록 계급과 계급의 시작점 개수를 바꿀 수 있습니다.
그림 2는 그림 1과 같은 데이터를 사용하지만 막대 개수가 더 많습니다. 그래도 데이터의 중심, 산포 및 형태는 잘 드러납니다. 하지만 전체적인 형태는 첫 번째 그림만큼 확실하게 나타나지 않습니다.
그림 3은 그림 1과 같은 데이터를 막대 또는 계급 3개로만 보여줍니다. 데이터의 중심과 형태, 산포를 확인하기가 훨씬 더 어렵습니다.
아래 애니메이션은 JMP와 손 도구를 사용하여 그림 1 - 3에 나온 데이터에 대한 계급의 경계 변경에 따른 결과를 탐색해보는 방법을 보여줍니다.
소프트웨어에서 대화형 탐색을 지원하지 않더라도 축 값과 축 증분을 변경하여 데이터를 탐색해보는 것이 좋습니다.
히스토그램에서 극단 데이터 값을 관측하는 방법
히스토그램은 극단값 또는 이상치의 영향을 받습니다. 그림 5와 6은 이상치가 제외된 데이터 집합과 포함된 데이터 집합을 보여줍니다.
위 그림에서 두 히스토그램 모두의 가로 축 척도는 20 - 90입니다. 대부분의 소프트웨어는 축소된 척도에 이상치 없이 히스토그램을 표시합니다. 그림 6에서는 동일한 척도를 사용하여 나머지 데이터 값보다 큰 이상치들이 히스토그램에서 어떻게 나타나는지 보여줍니다. 나머지 데이터 값보다 작은 이상치가 있거나 데이터의 양끝에 이상치가 있을 수도 있습니다.
히스토그램에서 왜도 관측 방법
모든 히스토그램이 대칭을 이루지는 않습니다. 히스토그램은 데이터의 분포를 보여주며, 일반적 분포 유형은 매우 다양합니다. 예를 들어 데이터가 비대칭인 경우가 흔합니다. 통계학에서는 왜도된 데이터라고 합니다. 예를 들어, 전화기의 배터리 수명은 대개 왜도 상태이며, 몇몇 전화기는 대부분의 다른 전화기보다 배터리 수명이 훨씬 깁니다.
그림 7은 거의 대칭에 가까운 데이터를 보여줍니다. 그림을 가운데에서 반으로 접는다고 생각해보면 양쪽이 거의 동일할 것입니다.
그림 8의 히스토그램은 대칭이 아닌 데이터를 보여줍니다. 값의 왼쪽 꼬리가 더 길게 늘어진 형태로 왼쪽으로 편중되어 있습니다. 왜도 통계량은 음수입니다.
그림 9의 히스토그램도 대칭이 아닌 데이터를 보여줍니다. 값의 오른쪽 꼬리가 더 길게 늘어진 형태로 오른쪽으로 편중되어 있습니다. 왜도 통계량은 양수입니다.
히스토그램에서 데이터의 그룹을 어떻게 관측하는가?
데이터에 여러 그룹이 있다는 것을 알고 있으면 전체가 포함된 하나의 히스토그램을 생성하는 것보다 그룹별로 히스토그램을 생성하는 것이 더 유용할 수 있습니다. 그러나 그룹이 존재하는지 여부가 불확실하거나 알 수 없는 경우, 데이터 내 그룹을 발견할 수 있는 단서가 될 패턴이 히스토그램에 드러나기도 합니다.
예를 들어, 그림 10의 그래프에는 남성과 여성의 데이터가 포함되어 있습니다. 우리는 남성과 여성의 데이터에 차이가 있을 수 있다고 생각합니다.
대략적으로 봉분형인 이 그래프에서 중심은 22 근처이고 산포도는 7 ~ 32 정도로 나타납니다.
그림 11은 각 막대의 줄무늬 부분으로 강조 표시된 남성의 데이터를 보여줍니다. 남성의 데이터는 봉분형에 가깝습니다.
그림 12의 그래프는 여성에 대한 데이터를 줄무늬 막대로 강조 표시합니다. 이 데이터는 봉분형에 가깝게 보입니다.
위 그래프는 그룹 간 차이가 영향을 미치는 예를 보여줍니다. 하지만 두 그룹에서 값의 전체 산포도는 동일합니다. 남성과 여성에 대한 강조 표시된 히스토그램을 비교해보면 남성의 값이 여성보다 작을 가능성이 높은 것으로 나타납니다. 겹치는 부분은 많지만 히스토그램은 남성과 여성 간에 차이가 있다는 가정을 뒷받침합니다.
그림 13에서는 두 그룹이 매우 다른 데이터를 보여줍니다. 전체 히스토그램을 보면 데이터가 봉분형으로 나타나지 않습니다. 그래프에서 한 그룹의 데이터가 줄무늬 막대로 강조되어 있습니다. 이 그룹은 대략 봉분형을 이루며, 산포도는 5 ~ 15, 중심은 9 정도로 나타납니다. 그래프에서 단색 막대는 두 번째 그룹의 데이터를 보여줍니다. 봉분형으로 보이지 않으며, 산포도는 20 ~ 32, 중심은 23 정도로 나타납니다.
이러한 그래프는 중요한 고려사항을 식별하는 데 유용한데, 바로 히스토그램을 생성할 때마다 데이터에 그룹이 있는지 여부를 생각해보는 것입니다. 그룹이 존재할 가능성이 있을 경우, 그룹별로 히스토그램을 생성하면 데이터를 더 자세히 파악할 수 있습니다. 일부 소프트웨어를 사용하면 위 그림과 같이 하나의 히스토그램에서 그룹 차이를 탐색할 수 있습니다.
히스토그램과 데이터 유형
연속형 데이터: 히스토그램에 적합
가능한 값들이 무수히 많은 척도로 측정되는 연속형 데이터에는 히스토그램이 적합합니다. 다음은 연속형 데이터의 몇 가지 예입니다.
- 연령
- 혈압
- 가중치
- 온도
- 속도
위의 모든 예에 대한 데이터 분포를 탐색하기 위한 그래픽 도구로는 히스토그램이 적합합니다.
범주형 또는 명목형 데이터: 막대 차트 사용
가능한 값이 몇 개뿐인 척도로 측정되는 범주형 또는 명목형 데이터에는 히스토그램이 적합하지 않습니다. 히스토그램 대신 막대 차트를 사용합니다.
범주형 데이터의 경우, 대개 표본이 여러 그룹으로 나뉘며 반응이 특정 순서로 정의됩니다. 예를 들어, "매우 비동의"부터 "매우 동의"까지 척도로 의견을 묻는 설문조사에서 응답자의 반응은 범주형입니다.
명목형 데이터에서도 표본을 여러 그룹으로 나누지만 특정 순서는 없습니다. 명목형 변수의 한 가지 예로 거주 국가를 들 수 있습니다. 국가 약칭을 사용하거나 숫자를 사용하여 국가 이름을 코드로 지정할 수 있습니다. 어느 방식으로든 데이터의 여러 다른 그룹에 이름만 지정하면 됩니다.