막대 차트

막대 차트란?

막대 차트는 범주형 또는 명목형 변수의 여러 가지 수준에 대한 값의 개수를 보여줍니다.

막대 차트는 어떻게 사용하는가?

막대 차트는 변수의 다양한 수준을 이해하는 데 유용하며, 오류를 확인하는 데 사용할 수 있습니다.

생각해볼 문제점은 무엇인가?

막대 차트는 명목형 또는 범주형 데이터에 사용됩니다. 연속형 데이터에는 대신 히스토그램을 사용합니다.

데이터의 빈도 수를 보여주는 막대 차트

막대 차트는 범주형 또는 명목형 변수의 여러 가지 수준에 대한 값의 빈도 수를 보여줍니다. 때로, 백분율과 같은 다른 통계량을 막대 차트로 표시하기도 합니다. 그림 1은 설문조사 응답에 대한 막대 차트의 예입니다.

그림 1: 설문조사에 대한 빈도 개수를 보여주는 막대 차트

막대에 변수의 수준이 표시되고, 막대 높이로 해당 수준의 반응 개수를 나타냅니다.

막대 차트와 히스토그램 간 차이점은 무엇인가?

히스토그램과 막대 차트 사이 두 가지 주요한 차이점은 막대 간 간격과 데이터 유형입니다. 히스토그램은 막대 사이에 빈 칸이 없고, 막대 차트에는 빈 칸이 있습니다. 하지만 다양한 소프트웨어 도구로 막대 차트를 수정하여 막대 사이 빈 칸을 제거할 수 있고, 결과적으로 히스토그램과 막대 차트 간 두 번째 주요한 차이가 발생합니다.

히스토그램은 연속형 데이터에 사용되고, 막대 차트는 범주형 또는 명목형 데이터에 사용됩니다. 자세한 내용은 아래 "막대 차트와 데이터 유형" 섹션을 참조하십시오.

막대 차트와 파레토 차트 간 차이점은 무엇인가?

 파레토 차트는 막대 차트의 특별한 예입니다. 파레토 차트에서는 최고에서 최저 높이 순서로 막대가 정렬됩니다. 이러한 차트는 대개 품질 관리 분야에서 문제가 가장 심한 영역을 찾아내는 데 사용됩니다.

히스토그램과 마찬가지로 파레토 차트에도 막대 사이에 빈 칸이 있습니다. 히스토그램과 달리 파레토 차트는 명목형 또는 범주형 변수에 해당하는 개수를 요약해 보여줍니다.

그림 2는 비즈니스 프로세스 감사에서 발견된 결과 유형을 요약한 파레토 차트의 예입니다. 차트에 범주의 범례가 포함되므로 범주를 읽기 쉽도록 라벨을 길게 지정할 수 있습니다.

그림 2: 해당하는 범례 표시 범주형 데이터를 보여주는 팔레토 차트

개수가 아닌 통계량 도표 작성

모든 예제에서 막대 차트로 개수로 보여주고 있지만 이러한 그래프로 백분율과 같은 그 외 통계량도 표시할 수 있습니다. 대부분의 소프트웨어 도구가 차트로 작성할 통계 옵션을 제공합니다.

 

막대 차트 예

막대 차트를 생성하는 데 소프트웨어가 자주 사용됩니다. 대개 소프트웨어를 사용하여 세로 막대 차트 또는 가로 막대 차트를 생성하고, 사용자 정의 기능도 막대 차트에 추가할 수 있습니다.

다음은 막대 차트의 몇 가지 예입니다. 통계학자와 상의하거나 이용 가능한 여러 서적과 웹사이트를 통해 데이터에 가장 적합한 막대 차트 유형을 확인할 수 있습니다.

그림 3-15에서는 캔디 10봉지의 데이터를 사용합니다. 한 봉지에 캔디가 100개씩 들어 있고, 각 봉지에서 5가지 맛별로 캔디 수 데이터를 수집했습니다. 각 봉지에 들어 있는 맛별 캔디 수가 거의 동일한 것이 목표입니다. 즉, 각 봉지에 캔디가 맛별로 대략 20개씩 들어 있다고 기대합니다. 전체 10봉지에 캔디가 맛별로 200개씩 들어 있을 것을 기대합니다.

첫 번째 단계는 그림 3과 같은 데이터 막대 차트를 생성하는 것입니다.

그림 3: 캔디 10봉지에서 발견된 맛별 캔디 개수를 보여주는 막대 차트

소프트웨어는 맛의 명칭을 기준으로 알파벳순으로 막대를 정렬합니다. 청중에게 결과를 제시하는 가장 좋은 방법일 것입니다.

하지만 그림 4에서 보듯이 개수가 줄어드는 순서로 단백질바를 정렬할 수도 있습니다.

그림 4: 그림 3과 동일하면서 내림차순으로 개수를 보여주는 막대 차트

이제 포도맛 캔디와 오렌지맛 캔디의 총 개수가 같다는 것을 알 수 있습니다. 이 사실은 그림 3에서 확인되지만 쉽게 눈에 띄지 않았습니다.

막대들이 세로형입니다. 그래프 라벨이 길 때는 대개 가로형 막대 차트가 더 좋습니다. 그림 5는 가로 차트에서 캔디 맛별로 더 긴 라벨을 사용하여 같은 데이터를 보여줍니다. 세로 막대 차트를 대신 사용했다면 라벨은 읽기가 더 어려웠을지도 모릅니다.

그림 5: 가로 막대 차트

소개되는 예제에서는 모든 막대에 같은 색상을 사용했습니다. 일반적으로 사용하는 색상이 많으면 그래프를 파악하기 어려워집니다. 

하지만 캔디 회사는 한 봉지에 모든 맛이 각각 18개 이상이어야 한다고 가정해봅시다. 따라서 10 봉지에는 맛별로 180개 이상의 캔디가 있어야 합니다. 데이터를 보면 체리 맛이 120개뿐이며, 이 문제를 강조해서 나타내려고 합니다. 이를 위해 그림 6에서 짙은 색상의 막대를 사용합니다. 다른 색상을 사용하여 체리에 해당하는 막대를 강조표시하는 방법도 있습니다.  

그림 6: 그림 5에 음영 처리 막대가 추가된 가로 막대 차트

막대에 라벨을 추가해야 할 수 있습니다. 그림 7에서 각 막대 끝에 개수를 추가합니다. 이 방법으로 빨간색 캔디 사과 맛에 문제가 있을 가능성도 표시할 수 있습니다. 그 이유는 봉지당 18개 요건을 간신히 충족하기 때문입니다.

그림 7: 그림 6에 빈도 개수 라벨이 추가된 가로 막대 차트

극단의 데이터 값이 막대 차트에 미치는 영향

막대 차트에는 데이터의 범주 개수가 표시됩니다. 히스토그램과 달리 막대 차트는 극단값의 영향을 받지 않습니다. 막대 차트는 단순히 매우 적은(혹은 많은) 값을 가진 범주를 다른 막대로 표시해줍니다. 그림 8은 포도 맛을 망고 맛으로 바꾼 다른 캔디 데이터 집합을 보여줍니다. 망고 맛 캔디 개수가 기대값보다 훨씬 적습니다.

그림 8: 극단(예상치 않게 낮은) 값을 보여주는 막대 차트

그림 9는 포도를 파인애플로 바꾼 다른 예를 보여줍니다. 파인애플 맛 캔디 개수가 기대값보다 훨씬 많습니다. 

그림 9: 극단(예상치 않게 높은) 값을 보여주는 막대 차트

막대 차트는 데이터에서 잘못된 값을 찾아내는 데 유용합니다. 그림 10에서 한 데이터 값의 "망고"가 "망기"로 잘못 표기되었습니다. 이는 수정해야 할 명백한 데이터 오류입니다. 막대 차트를 사용하면 데이터의 오류를 확인하기 쉽습니다.

그림 10: 명백한 철자 오류가 포함된 범주를 보여주는 막대 차트

막대 차트에 그룹을 어떻게 추가하는가?

데이터에 여러 그룹이 있는 경우 모든 데이터를 막대 차트에 함께 표시하면 그룹 전체의 패턴을 표시하는 데 도움이 됩니다. 그림 11은 캔디 공장 세 곳의 데이터를 통합한 것입니다.

그림 11: 그룹 데이터를 보여주는 막대 차트

이 그림에서 어떤 공장에서 캔디 봉지에 어떤 맛을 사용하는지 알 수 있습니다. 또한 A 공장의 캔디 봉지에는 망고 맛 캔디가 너무 적은 것과 같은 문제들도 확인됩니다. 예제에서 막대를 알파벳순으로 정렬하면 편리합니다. 공장마다 주문이 달라서 개수 단위로 주문할 수 없습니다.

예제에서는 공장마다 다른 색상을 사용하는 것이 편리할 수 있습니다. 그림 12는 공장들을 각각 다른 색상으로 보여줍니다.

그림 12: 그룹별로 다른 색상을 사용하여 그룹 데이터를 보여주는 막대 차트

그림 13에서와 같이 가로 축에 개수를 표시하면 개수를 눈으로 쉽게 비교할 수 있습니다.

그림 13: 빈도 개수 라벨 표시 그룹 데이터를 보여주는 가로 막대 차트

그림 13은 맛 별로 개수를 비교하기는 쉽지만, 들어있는 맛 개수를 공장 별로 비교하기는 그림 12보다 어렵습니다.

이러한 방법은 막대 차트에 그룹을 추가하는 수 많은 방법 중 몇 가지에 불과합니다. 데이터의 경우, 청중에게 전달할 메시지와 그 메시지에 가장 적합한 그래프를 그릴 방법을 생각해 보아야 합니다. 

누적 막대 차트

그룹을 사용하는 대신 누적 막대 차트를 사용할 수 있습니다. 누적 막대 차트를 사용하여 그룹에 대한 반응을 표시합니다. 여기서 그룹은 캔디 데이터에 해당하는 공장을 나타냅니다. 그룹별로 막대가 하나씩 있습니다. 이어서 변수의 빈도 개수가 각 공장에 해당하는 막대 안에 누적됩니다. 캔디 데이터의 경우, 맛의 개수가 각 공장에 해당하는 막대와 함께 누적됩니다. 그림 14는 세 공장의 캔디 데이터에 대한 누적 막대 차트를 보여주며, 각기 다른 색상으로 맛을 구분하고 있습니다.

그림 14: 그룹 데이터를 보여주는 누적 막대 차트

그림 14에서 망고는 A 공장만 사용하고 파인애플은 B 공장만 사용하며 포도는 C 공장만 사용한다는 것을 쉽게 알 수 있습니다. 막대의 누적 부분 크기를 비교함으로써 A 공장은 망고 캔디를 아주 조금 사용하고 B 공장은 파인애플 캔디를 많이 사용하는 것도 확인할 수 있습니다.

누적 막대 차트에서 범례 추가는 중요한 기능입니다. 그림 15에서 보듯이 다양한 소프트웨어 도구를 사용하여 누적 막대 차트에 라벨을 추가할 수 있습니다. B 공장을 예로 보면, 체리 맛 캔디와 오렌지 맛 캔디의 총 개수가 같다는 것을 범례로 쉽게 확인할 수 있습니다.

그림 15: 캔디 맛에 대한 빈도 개수를 보여주는 누적 막대 차트

색상에 대한 최종 결정을 내리기 전에 누적 막대 차트를 흑백으로 인쇄해보는 것이 유용할 수 있습니다. 또한 그림 15에서 보듯이 라벨을 추가할 때, 누적 막대의 각 요소에 대한 배경 색상에서 라벨이 잘 보이는지 확인해야 합니다. 

막대 차트 및 데이터 유형

그림 16-20은 여러 가지 유형의 데이터에서 언제 막대 차트 또는 히스토그램을 사용하는 것이 적절한지 보여줍니다.

그림 16: 현재 유형 차트에 적합한 범주형 데이터를 보여주는 막대 차트
그림 17: 해당 유형 차트에 적합하지 않은 범주형 데이터를 보여주는 히스토그램
그림 18: 해당 유형 차트에 적합한 명목형 데이터를 보여주는 막대 차트
그림 19: 해당 유형 차트에 적합하지 않은 명목형 데이터를 보여주는 히스토그램
그림 20: 해당 유형 차트에 적합한 연속형 데이터를 보여주는 히스토그램

범주형 또는 명목형 데이터: 막대 차트에 적합

막대 차트는 가능한 특정 값들이 정해진 척도로 측정되는 범주형 또는 명목형 데이터에 적합합니다.

범주형 데이터의 경우, 대개 표본이 여러 그룹으로 나뉘며 반응 순서가 정의됩니다. 예를 들어, "매우 비동의"부터 "매우 동의"까지 척도로 의견을 묻는 설문조사에서 응답자의 반응은 범주형입니다.

명목형 데이터에서도 표본을 여러 그룹으로 나누지만 특정 순서는 없습니다. 명목형 변수의 한 가지 예로 거주 국가를 들 수 있습니다. 국가 약칭을 사용하거나 숫자를 사용하여 국가 이름을 코드로 지정할 수 있습니다. 어느 방식으로든 데이터의 여러 다른 그룹에 이름만 지정하면 됩니다.

연속형 데이터: 히스토그램 사용

가능한 값들이 무수히 많은 척도로 측정되는 연속형 데이터에는 막대 차트가 적합하지 않습니다. 다음은 연속형 데이터의 몇 가지 예입니다.

  • 연령
  • 혈압
  • 가중치
  • 온도
  • 속도

이러는 예에는 막대 차트 대신 히스토그램을 사용합니다.