ヒートマップ

ヒートマップとは?

ヒートマップは、色を使用して、3番目の変数の変化と大きさを2次元プロット上に示します。

ヒートマップの使用方法

ヒートマップは、パターンと変化を表すために用いられます。このグラフは経時的な変化を表すために使用できますが、詳細な分析には向いていません。

関係と変化を示すヒートマップ

ヒートマップは四角形を配置したグラフです。多くの場合、x軸は時間の測定値ですが、任意のグループ変数にすることができます。y軸は、データのカテゴリを定義する変数です。ツリーマップとは異なり、各四角形は同じサイズです。四角形は、3番目の変数の値の大きさを表すために色付けされています。当初は温度のデータに使用されていましたが、ヒートマップは現在、多くのタイプのデータに使用されています。

ヒートマップは、大規模なデータセットに役立ちます。時間軸を持つヒートマップを使用して、経時的なパターンと変化を調べることができます。ヒートマップの四角形には、色分けに用いた変数の値でラベルを付けることができます。これは、y軸のカテゴリが非常に少ない場合にのみ役立ちます。

図1は、米国の3つの空港における週ごとの最高気温をヒートマップで示しています。右側の凡例は、四角形の色を説明しています。JMPは、データに基づいてヒートマップをスケーリングおよび色付けします。

米国の3つの空港における週ごとの最高気温のヒートマップ
図1:米国の3つの空港における週ごとの最高気温のヒートマップ

図1のグラフは、ヒートマップの基本的な考え方を示しています。最も涼しい月は冬で、最も暖かい月は夏です。

図2は、ラベルが追加されたヒートマップを示しています。

Airport Location by Week of Year, Labeled
図2:ラベル付きのヒートマップ

JMPソフトウェアは、四角形のさまざまな色で読み取れるように、ラベルに自動的に色を付けます。より多くの四角形を含むヒートマップでは、識別可能なラベルを表示できないことがわかります。

ヒートマップの例

例1:気温と空港

図3は、データセット内のすべての空港を表示して、最初のヒートマップを拡張しています。

Airport Location Heatmap (large)
図3:すべての空港のヒートマップ

図3でも、最高気温は冬は涼しく、夏は暖かくなります。空港は緯度によって上から下に並べられているため、年間を通じて北部の空港は南部の空港よりも一般的に涼しいことがわかります。また、欠落したデータは白いセルによって表されていることもわかります。

このヒートマップを、3つの空港のみを示す図1と比較してください。JMPは、ヒートマップのデータの色付けに使用される変数の範囲に基づいて、ヒートマップを自動的にスケーリングして色付けします。このため、最初のヒートマップの3つの空港は、すべてのデータを含む図3とは異なる色になっています。

例2:経時的な人口の変化

ヒートマップ図は、さまざまな種類のデータに使用できます。図4のヒートマップは、米国のさまざまな地域における1世紀にわたる人口の変化を示しています。

Population Change Over Time by Region
図4:地域ごとの人口の経時的な変化を示すヒートマップ

 

このヒートマップは、過去1世紀にわたって一部の地域で人口の変化がほとんどなかったことを示しています。アラスカとハワイでは、ヒートマップに色の変化は見られません。南部大西洋岸(South Atlantic)の州は、最大の人口の経時的な変化を示しました。

例3:航空機の遅延の大規模なデータセット

ヒートマップは、非常に大きなデータセットのパターンを確認するのに最も役立ちます。図5のグラフは、29,000を超えるフライトのデータをまとめたものです。ヒートマップは、6つの航空会社の到着遅延の平均を示しています。四角形は、y軸に月、x軸にその月の日で定義されます。

Heatmap by Day and Month
図5:月と日ごとの航空機の到着遅延のヒートマップ

ヒートマップの色から、夏季の月と12月の平均遅延が最も大きいことがわかります。また、特に日数が31未満の月では、データが欠落していることを示す白いセルがいくつか表示されます。これは、その日にフライトがないことを意味します。

非常に大きなデータセットを結合する場合は注意が必要です。場合によっては、ヒートマップに大きな影響を与え得る別の変数があります。航空機の遅延データの場合、ヒートマップは航空会社ごとに異なります。図6のグラフは、サウスウエスト航空とアメリカン航空のヒートマップを示しています。

Delays by Day/Month Heatmap
図6:アメリカン航空およびサウスウエスト航空の遅延ヒートマップ

2つの航空会社のヒートマップでは、夏と12月により多くの遅延が見られますが、2つの航空会社の全体的なパターンは異なります。サウスウエスト航空はアメリカン航空よりも全体的に遅延が少なくなっています。大規模なデータセットのヒートマップを作成するときは、別の変数がヒートマップに影響を与える可能性があるかどうかを検討してください。

例4:相関行列

ヒートマップは、多くの変数間の関係を理解するときにも役立ちます。JMPは、変数間のペアごとの相関係数のヒートマップを散布図行列に追加します。図7は、オーストラリアの観光業における多くの変数間の二元散布図を示しています。行列の上三角形は、変数のペア間の相関のヒートマップを示しています。

Scatterplot Matrix and Heatmap
図7:相関行列

このヒートマップから、ベッドスペースはホテルの就業者や顧客の平均滞在期間との間に負の相関関係があり、他のすべての変数と正の相関関係があることがわかります。