히트맵

히트맵이란?

히트맵은 색상을 사용하여 2차원 그림에 세 번째 변수의 변동과 크기를 표시합니다.

히트맵은 어떻게 사용하는가?

히트맵은 패턴과 변동을 보여주는 데 유용합니다. 시간 경과에 따른 변동을 보여주는 데는 유용하지만 상세한 분석용 도구는 아닙니다.

관계와 변동을 보여주는 히트맵

히트맵은 직사각형들의 배열입니다. X 축은 대개 시간의 척도이지만 그룹화를 통해 어떠한 변수도 가능합니다. Y 축은 데이터의 범주를 정의하는 변수입니다. 트리맵과 달리 직사각형들의 크기가 같습니다. 직사각형에 채색을 통해 세 번째 변수의 크기를 나타냅니다. 초기에는 온도에 사용되었는데 지금은 여러 유형의 데이터에 히트맵이 사용되고 있습니다

히트맵은 매우 큰 데이터 집합에 유용합니다. 시간 축이 있는 히트맵을 사용하면 시간 경과에 따른 패턴과 변동을 볼 수 있습니다. 히트맵 직사각형에 색상 변수 값으로 라벨을 지정할 수 있는데, 이는 Y 축에 범주가 몇 개 뿐인 경우에만 유용합니다.

그림 1은 미국 공항 세 곳의 연중 주간 최대 온도 히트맵을 보여줍니다. 오른쪽의 범례는 직사각형의 색상을 설명합니다. JMP는 데이터를 기반으로 히트맵의 척도와 색상을 지정합니다.

그림 1: 미국 내 세 공항의 연중 주간 최대 온도 히트맵

그림 1의 그래프는 히트맵의 기본 개념을 보여줍니다.온도가 가장 낮은 달은 겨울철이고, 가장 높은 달은 여름철입니다.

그림 2는 라벨이 추가된 히트맵입니다.

그림 2: 라벨 추가 히트맵

소프트웨어가 여러 가지 색상의 직사각형 대비 눈에 띄도록 라벨 색상을 자동으로 지정합니다. 직사각형이 더 많은 히트맵은 눈에 보이는 라벨을 표시할 수 없음을 알 수 있습니다. 

히트맵 예

예제 1: 온도와 공항

그림 3에서 데이터 집합의 모든 공항을 표시하여 기본 히트맵을 확장합니다.

그림 3: 모든 공항이 포함된 히트맵

그림 3에서, 최대 기온이 겨울에는 더 내려가고 여름에는 더 올라가는 것을 다시 한 번 볼 수 있습니다. 공항들이 위도별로 위에서 아래로 정렬되기 때문에 일반적으로 북쪽 공항들이 남쪽 공항들보다 일년 내내 온도가 낮다는 것을 알 수 있습니다. 또한 결측 데이터는 흰색 셀로 나타나는 것도 볼 수 있습니다.

이 히트맵을 공항 세 곳만 표시한 그림 1과 비교합니다. JMP는 히트맵 데이터를 채색하는 데 사용되는 변수의 범위에 따라 자동으로 히트맵의 척도와 색상을 조정합니다. 이러한 이유로 첫 번째 히트맵에 나온 세 공항은 모든 데이터를 포함하는 그림 3과는 색상이 다릅니다.

예제 2: 시간 경과에 따른 인구 변화

다양한 유형의 데이터에 히트맵을 사용할 수 있습니다. 그림 4의 히트맵은 1세기 동안 미국의 여러 지역에 대한 인구 변화를 보여줍니다. 

그림 4: 지역별로 시간 경과에 따른 인구 변동을 보여주는 히트맵

 

이 히트맵은 지난 세기 동안 일부 지역에서 인구 변동이 거의 없었다는 사실을 보여줍니다. 히트맵에서 알래스카와 하와이는 색상이 전혀 변하지 않습니다.남대서양 주들에서 시간이 지남에 따른 인구 변동이 가장 컸습니다.

예제 3: 대규모 데이터 집합을 사용한 항공사 지연

히트맵은 매우 큰 데이터 집합의 패턴을 보는 데 가장 유용합니다. 그림 5의 그래프는 29,000회 이상의 비행 데이터를 요약하여 보여줍니다. 히트맵에는 6개 항공사의 평균 도착 지연이 나와 있습니다. 직사각형은 y 축의 월과 x 축의 일로 정의됩니다.

그림 5: 월별 및 일별 항공기 도착 지연 히트맵

히트맵 색상을 보면 여름철과 12월에 평균 지연이 가장 많은 나타납니다. 또한 결측 데이터를 나타내는 흰색 셀도 몇 개 보이는데, 날짜 수 31일 미만에 해당하는 달의 경우 해당 날짜에 항공편이 없음을 의미합니다.

매우 큰 데이터 집합을 결합할 때는 주의해야 합니다. 히트맵에 큰 영향을 미칠 수 있는 다른 변수가 있을지도 모릅니다. 항공사 지연 데이터의 경우, 히트맵이 항공사마다 다릅니다. 그림 6의 그래프는 남서부 및 미국 항공사들의 히트맵을 보여줍니다.

그림 6: American 항공사와 Southwest 항공사의 항공기 지연 히트맵

두 항공사의 히트맵이 여름철과 12월에 지연 증가를 보여주고 있지만 두 항공사의 전반적 패턴은 서로 다릅니다. Southwest 항공사가 American 항공사보다 전반적인 지연이 적습니다. 대규모 데이터 집합에 대한 히트맵을 작성할 때 또 하나의 변수가 히트맵에 영향을 줄 수 있는지 여부를 고려해봅니다.

예제 4: 상관 행렬

히트맵은 여러 변수 간 관계를 이해하려고 할 때도 유용합니다. JMP는 산점도 행렬에 변수 사이의 쌍별 상관에 대한 히트맵을 추가합니다. 그림 7은 호주 관광에 대한 다양한 변수 간 이원 산점도입니다. 행렬의 위쪽 삼각형에 변수 쌍 간 상관에 대한 히트맵이 표시됩니다.

그림 7: 상관 행렬

이 히트맵에서 침대 공간은 호텔에서 근무하는 사람들 그리고 고객의 평균 체류 기간과 사이에 부정적 상관성이 있고, 다른 모든 변수들과는 긍정적 상관성이 있음을 알 수 있습니다.