트리맵
트리맵
트리맵은 다양한 색상과 크기의 사각형을 사용하여 데이터의 계층 구조를 보여줍니다.
트리맵 사용 방법
트리맵은 데이터의 계층 구조와 변수 사이 관계를 확인하는 데 유용합니다.
계층 구조 데이터를 보여주는 트리맵
트리맵은 데이터의 계층 구조를 보여주는 사각형 배열입니다. 트리맵은 컴퓨터 하드 드라이브에 저장된 파일의 구조와 크기를 보여주는 방법으로 고안되었습니다. 지금은 계층이 없는 상황을 비롯하여 매우 다양한 상황에서 트리맵이 사용됩니다. 트리맵에서는 작은 공간에 많은 양의 데이터를 표시할 수 있습니다.
트리맵 생성에는 거의 대부분 컴퓨터가 이용됩니다. 소프트웨어 도구가 알고리즘을 사용하여 각 사각형에 포함되는 관측값 수에 비례하여 사각형의 크기를 구성합니다. 대부분의 도구에서 사각형을 채색하고 레이블을 추가할 수 있는 옵션을 제공합니다. 일부 도구에서는 드릴다운을 통해 더 자세한 정보를 볼 수 있으며, 이러한 기능은 트리맵의 사각형들이 작아서 레이블을 쉽게 볼 수 없을 때 유용합니다.
그림 1의 매우 단순한 트리맵은 중소기업과 대기업의 매출 구조를 보여줍니다. 회사 범주별 평균 매출액(미국 달러)에 따라 사각형의 크기가 정해지고 직원당 수익에 따라 사각형의 색상이 지정됩니다.
그림 1의 그래프는 트리맵의 기본 개념을 보여줍니다. 이 예제에서 사각형 색상을 기준으로 중간 규모 기업의 직원당 수익이 가장 높다는 결론을 내릴 수 있습니다. 사각형 크기를 근거로 대기업의 평균 매출액이 가장 크다는 결론도 내려집니다. 이보다 복잡한 데이터를 시각화하는 데에도 트리맵을 사용할 수 있습니다. 복잡한 계층 구조를 가진 변수를 시각화하는 데 트리맵이 적합합니다.
트리맵 예
예제 1: 범주 및 계층 구조 트리맵
기본적인 예를 확장한 그림 2의 트리맵은 두 가지 범주의 기업과 범주별 중소기업 및·대기업의 매출 구조를 보여주고 있습니다.트리맵에서 사각형의 크기는 범주 규모 조합별 평균 매출(미국 달러)에 따라 지정됩니다. 트리맵에서 사각형의 색상은 수익/직원(직원당 수익)에 따라 지정됩니다.
그림 2의 트리맵을 보면 소규모 제약회사의 직원당 수익이 가장 높은 것으로 나타납니다. 사각형 크기를 보면, 두 범주 모두에서 대기업의 매출이 가장 높게 나타납니다. 또한 중간 규모의 컴퓨터 회사들의 직원당 수익은 음수 값으로 나타납니다. 이 트리맵에서 소규모 제약 회사에 해당하는 가장 작은 사각형에는 라벨을 붙일 수 없습니다. 이러한 상황은 작은 사각형들이 많이 생성되는 대규모 데이터 집합을 다룰 때 흔히 발생합니다. 여기에서 "팝업 도움말"을 제공하거나 대화형 드릴다운을 허용하는 도구가 유용합니다.
처음에 내린 대기업의 평균 매출이 가장 높다는 결론은 여전히 사실입니다. 다만, 범주 변수를 사용함으로써 중간 규모 업체의 수익/직원이 가장 높다는 처음 결론은 틀린 것으로 확인됩니다.
예제 2: 수준이 많은 대규모 변수 집합의 범주 및 계층 구조
트리맵은 수준 개수가 많은 대규모 변수 집합에 더 유용합니다. 그림 3은 그림 2와 유사한 재무 데이터를 보여줍니다. 이제 6개 수준의 여러 유형 기업에 대한 변수가 있습니다. 회사 규모에 대한 변수도 있습니다. 이 예제에서는 앞의 예제들보다 많은 회사 범주를 보여줍니다. 미국 달러 단위 평균 매출액에 따라 사각형의 크기가 정해집니다. 회사 유형에 따라 사각형의 색상이 지정되고, 회사 규모에 따라 사각형들이 그룹으로 묶입니다.
회사 규모에 대한 계층 구조 전반에서 석유회사들의 평균 매출이 가장 높은 것을 보여주는 트리맵입니다. 음료회사의 평균 매출은 대기업이 가장 낮고 중소기업은 그렇지 않습니다. 소뮤모 회사의 경우, 비누회사들의 평균 매출이 가장 낮습니다. 중간 규모 업체들의 경우, 항공우주 회사들의 평균 매출이 가장 낮습니다.
예제 3: 계층구조가 없는 트리맵
계층 구조가 없는 데이터에도 트리맵이 유용할 수 있습니다. 그림 4의 트리맵은 많은 다양한 종의 총 수면 시간을 보여줍니다. 종의 수명에 따라 사각형의 크기가 정해지고, 수면 시간에 따라 사각형의 색상이 지정됩니다.
그림 4의 트리맵 색상을 보면 박쥐의 총 수면 시간이 가장 길게 나타납니다. 사각형의 크기로 작은 갈색 박쥐의 수명이 큰 갈색 박쥐보다 긴 것을 알 수 있습니다. 인간의 수명이 가장 길다는 것도 트리맵의 사각형 크기로 알 수 있습니다.
예제 4: Y축 범주
앞의 예제들에서는 X축에 범주 또는 계층이 나타납니다. 그림 5의 예제에서는 Y축에 범주 계층이 나타납니다. 1990년대 중반의 차량 데이터이며, 차량 모델별 갤런당 고속도로 주행 마일(MPG) 단위에 따라 트리맵 상자의 크기가 정해집니다. Y축 범주 변수는 미국산 차량인지 여부를 나타냅니다.
트리맵은 일반적인 패턴을 보는 데 유용합니다. 예를 들어, 주황색 사각형이 일반적으로 파란색 사각형보다 클까요? Geo Metro의 MPG가 모든 차량 중에서 가장 높습니다. 팝업 도움말을 사용하면 각 사각형에 대한 MPG가 나타나므로 쉽게 확인할 수 있습니다. 소프트웨어가 자동으로 차량들을 알파벳 순서로 정렬했습니다.
예제 5: 두 가지 범주
범주가 구조를 정의하는 여러 범주 데이터에 트리맵이 유용합니다. 그림 6의 트리맵은 6개 항공사에 대한 지연과 해당 요일을 범주 변수로 보여줍니다. 평균 도착 지연에 따라 사각형의 크기와 색상이 지정됩니다.
전체 항공사들의 평균 도착 지연은 요일에 따라 다릅니다. 전체적으로 지연이 가장 적은 항공사를 선택하려는 경우, 트리맵을 보면 Southwest 또는 Delta 항공사를 선택해야 합니다. Southwest 또는 Delta 항공사의 평균 지연 시간은 주 초반에 8분 미만이고, 목요일과 금요일에는 증가합니다.두 항공사의 경우, 가장 높은 평균 지연 시간은 11분 미만입니다. 대조적으로 American 항공사의 최저 평균 지연 시간은 11분입니다. 전체 트리맵에서 평균 지연 시간이 가장 짧은 항공사는 화요일의 Southwest 항공사입니다. 평균 지연 시간이 가장 긴 항공사는 금요일의 American 항공사입니다.