히트맵
히트맵이란?
히트맵은 색상을 사용하여 2차원 그림에 세 번째 변수의 변동과 크기를 표시합니다.
히트맵은 어떻게 사용하는가?
히트맵은 패턴과 변동을 보여주는 데 유용합니다. 시간 경과에 따른 변동을 보여주는 데는 유용하지만 상세한 분석용 도구는 아닙니다.
관계와 변동을 보여주는 히트맵
히트맵은 직사각형들의 배열입니다. X 축은 대개 시간의 척도이지만 그룹화를 통해 어떠한 변수도 가능합니다. Y 축은 데이터의 범주를 정의하는 변수입니다. 트리맵과 달리 직사각형들의 크기가 같습니다. 직사각형에 채색을 통해 세 번째 변수의 크기를 나타냅니다. 초기에는 온도에 사용되었는데 지금은 여러 유형의 데이터에 히트맵이 사용되고 있습니다
히트맵은 매우 큰 데이터 집합에 유용합니다. 시간 축이 있는 히트맵을 사용하면 시간 경과에 따른 패턴과 변동을 볼 수 있습니다. 히트맵 직사각형에 색상 변수 값으로 라벨을 지정할 수 있는데, 이는 Y 축에 범주가 몇 개 뿐인 경우에만 유용합니다.
그림 1은 미국 공항 세 곳의 연중 주간 최대 온도 히트맵을 보여줍니다. 오른쪽의 범례는 직사각형의 색상을 설명합니다. JMP는 데이터를 기반으로 히트맵의 척도와 색상을 지정합니다.
그림 1의 그래프는 히트맵의 기본 개념을 보여줍니다.온도가 가장 낮은 달은 겨울철이고, 가장 높은 달은 여름철입니다.
그림 2는 라벨이 추가된 히트맵입니다.
소프트웨어가 여러 가지 색상의 직사각형 대비 눈에 띄도록 라벨 색상을 자동으로 지정합니다. 직사각형이 더 많은 히트맵은 눈에 보이는 라벨을 표시할 수 없음을 알 수 있습니다.
히트맵 예
예제 1: 온도와 공항
그림 3에서 데이터 집합의 모든 공항을 표시하여 기본 히트맵을 확장합니다.
그림 3에서, 최대 기온이 겨울에는 더 내려가고 여름에는 더 올라가는 것을 다시 한 번 볼 수 있습니다. 공항들이 위도별로 위에서 아래로 정렬되기 때문에 일반적으로 북쪽 공항들이 남쪽 공항들보다 일년 내내 온도가 낮다는 것을 알 수 있습니다. 또한 결측 데이터는 흰색 셀로 나타나는 것도 볼 수 있습니다.
이 히트맵을 공항 세 곳만 표시한 그림 1과 비교합니다. JMP는 히트맵 데이터를 채색하는 데 사용되는 변수의 범위에 따라 자동으로 히트맵의 척도와 색상을 조정합니다. 이러한 이유로 첫 번째 히트맵에 나온 세 공항은 모든 데이터를 포함하는 그림 3과는 색상이 다릅니다.
예제 2: 시간 경과에 따른 인구 변화
다양한 유형의 데이터에 히트맵을 사용할 수 있습니다. 그림 4의 히트맵은 1세기 동안 미국의 여러 지역에 대한 인구 변화를 보여줍니다.
이 히트맵은 지난 세기 동안 일부 지역에서 인구 변동이 거의 없었다는 사실을 보여줍니다. 히트맵에서 알래스카와 하와이는 색상이 전혀 변하지 않습니다.남대서양 주들에서 시간이 지남에 따른 인구 변동이 가장 컸습니다.
예제 3: 대규모 데이터 집합을 사용한 항공사 지연
히트맵은 매우 큰 데이터 집합의 패턴을 보는 데 가장 유용합니다. 그림 5의 그래프는 29,000회 이상의 비행 데이터를 요약하여 보여줍니다. 히트맵에는 6개 항공사의 평균 도착 지연이 나와 있습니다. 직사각형은 y 축의 월과 x 축의 일로 정의됩니다.
히트맵 색상을 보면 여름철과 12월에 평균 지연이 가장 많은 나타납니다. 또한 결측 데이터를 나타내는 흰색 셀도 몇 개 보이는데, 날짜 수 31일 미만에 해당하는 달의 경우 해당 날짜에 항공편이 없음을 의미합니다.
매우 큰 데이터 집합을 결합할 때는 주의해야 합니다. 히트맵에 큰 영향을 미칠 수 있는 다른 변수가 있을지도 모릅니다. 항공사 지연 데이터의 경우, 히트맵이 항공사마다 다릅니다. 그림 6의 그래프는 남서부 및 미국 항공사들의 히트맵을 보여줍니다.
두 항공사의 히트맵이 여름철과 12월에 지연 증가를 보여주고 있지만 두 항공사의 전반적 패턴은 서로 다릅니다. Southwest 항공사가 American 항공사보다 전반적인 지연이 적습니다. 대규모 데이터 집합에 대한 히트맵을 작성할 때 또 하나의 변수가 히트맵에 영향을 줄 수 있는지 여부를 고려해봅니다.
예제 4: 상관 행렬
히트맵은 여러 변수 간 관계를 이해하려고 할 때도 유용합니다. JMP는 산점도 행렬에 변수 사이의 쌍별 상관에 대한 히트맵을 추가합니다. 그림 7은 호주 관광에 대한 다양한 변수 간 이원 산점도입니다. 행렬의 위쪽 삼각형에 변수 쌍 간 상관에 대한 히트맵이 표시됩니다.
이 히트맵에서 침대 공간은 호텔에서 근무하는 사람들 그리고 고객의 평균 체류 기간과 사이에 부정적 상관성이 있고, 다른 모든 변수들과는 긍정적 상관성이 있음을 알 수 있습니다.