Heatmap

Was ist eine Heatmap?

Eine Heatmap stellt Änderungen und Größen einer dritten Variable in einem zweidimensionalen Diagramm anhand von Farben dar.

Wie werden Heatmaps eingesetzt?

Heatmaps werden verwendet, um die Darstellung von Mustern und Veränderungen zu unterstützen. Sie können genutzt werden, um Änderungen im Zeitverlauf anzuzeigen, sind aber nicht für eine detaillierte Analyse konzipiert.

Heatmaps zeigen Zusammenhänge und Veränderungen

Eine Heatmap ist eine Zusammenstellung von Rechtecken. Die x-Achse wird oft mit einem Zeitmaß bezeichnet, kann aber eine beliebige Variable mit Gruppierungen aufweisen. Die y-Achse stellt eine Variable dar, welche die Kategorien in den Daten definiert. Im Gegensatz zu einer Tree Map hat jedes Rechteck dieselbe Größe. Die Rechtecke sind farblich hervorgehoben, um die Größe einer dritten Variable darzustellen. Obwohl sie ursprünglich für Temperaturwerte konzipiert wurden, kommen Heatmaps inzwischen bei vielen verschiedenen Datenarten zum Einsatz.

Heatmaps sind auch bei großen Datensätzen hilfreich. Eine Heatmap mit einer Zeitachse kann genutzt werden, um Muster und Veränderungen im Zeitverlauf zu betrachten. Die Rechtecke einer Heatmap können mit Werten der farbgebenden Variable beschriftet werden. Das funktioniert aber nur dann gut, wenn es wenige Kategorien auf der y-Achse gibt.

Abbildung 1 zeigt eine Heatmap der Maximaltemperaturen an drei US-Flughäfen nach Woche. Die Legende rechts erklärt die Farben der Rechtecke. JMP skaliert und färbt die Heatmap basierend auf den Daten.

Abbildung 1: Heatmap der Maximaltemperaturen an drei US-Flughäfen nach Woche

Der Graph in Abbildung 1 zeigt das Grundkonzept einer Heatmap.Die kühlsten Monate liegen im Winter, die wärmsten im Sommer.

Abbildung 2 zeigt eine Heatmap mit Beschriftungen.

Abbildung 2: Heatmap mit Beschriftungen

Die Software färbt die Beschriftungen automatisch so ein, dass sie angesichts der verschiedenen Farben der Rechtecke gut lesbar sind. Sie sehen, dass eine Heatmap mit mehr Rechtecken keine wirklich lesbaren Beschriftungen enthalten kann.

Beispiele für Heatmaps

Beispiel 1: Temperaturen und Flughäfen

Abbildung 3 erweitert die einfache Heatmap um die Darstellung aller Flughäfen im Datensatz.

Abbildung 3: Heatmap mit allen Flughäfen

In Abbildung 3 sehen wir erneut, dass die Maximaltemperaturen im Winter kühler und im Sommer wärmer sind. Da die Flughäfen absteigend nach Breitengrad sortiert sind, sehen wir, dass die nördlichen Flughäfen das ganze Jahr über allgemein kühlere Werte aufweisen als die südlich gelegenen Flughäfen. Außerdem erkennen wir fehlende Daten, die durch weiße Zellen dargestellt werden.

Vergleichen Sie diese Heatmap mit Abbildung 1, die nur drei Flughäfen zeigt. JMP skaliert und färbt die Heatmap automatisch basierend auf dem Variablenbereich, der zur Färbung der Heatmap-Daten benutzt wird. Daher weisen die drei Flughäfen in der ersten Heatmap andere Farben auf als in Abbildung 3, die alle Daten enthält.

Beispiel 2: Bevölkerungsveränderung im Zeitverlauf

Heatmaps können für viele verschiedene Datentypen verwendet werden. Die Heatmap in Abbildung 4 zeigt die Bevölkerungsveränderung in verschiedenen US-Regionen über ein Jahrhundert hinweg.

Abbildung 4: Heatmap zeigt Bevölkerungsveränderung im Zeitverlauf nach Region

 

Diese Heatmap zeigt, dass einige Regionen im letzten Jahrhundert nur geringere Veränderungen der Bevölkerungszahl hatten. Alaska und Hawaii weisen in der Heatmap keine Farbveränderung auf.Die Staaten im Südatlantik weisen die größte Bevölkerungsveränderung im Zeitverlauf auf.

Beispiel 3: Umfangreicher Verzögerungsdatensatz von Fluggesellschaften

Heatmaps sind sehr nützlich, um Muster in sehr umfangreichen Datensätzen zu erkennen. Der Graph in Abbildung 5 fasst die Daten aus über 29.000 Flügen zusammen. Die Heatmap zeigt die durchschnittliche Ankunftsverzögerung für sechs Fluggesellschaften. Die Rechtecke werden durch den Monat auf der Y-Achse und den Tag des Monats auf der X-Achse definiert.

Abbildung 5: Heatmap der Ankunftsverzögerungen von Fluggesellschaften nach Monat und Tag

Anhand der Farben der Heatmap können wir erkennen, dass in den Sommermonaten und im Dezember die höchsten Durchschnittswerte in Bezug auf Verzögerungen auftreten. Außerdem sehen wir einige weiße Zellen, die auf fehlende Daten hinweisen, besonders bei Monaten mit weniger als 31 Tagen. Das bedeutet, dass an diesen Tagen keine Flüge stattfanden.

Passen Sie auf, wenn Sie sehr große Datensätze kombinieren.In einigen Fällen gibt es noch eine andere Variable, die großen Einfluss auf die Heatmap haben kann. Für die Verzögerungsdaten der Fluggesellschaften variiert die Heatmap je nach Fluggesellschaft. Die Graphen in Abbildung 6 zeigen Heatmaps für die Anbieter Southwest und American.

Abbildung 6: Heatmaps von Verzögerungen der Fluggesellschaften American und Southwest

Die Heatmaps für die beiden Fluggesellschaften zeigen zwar immer noch mehr Verzögerungen im Sommer und im Dezember, doch die beiden Unternehmen weisen insgesamt verschiedene Muster auf. Southwest treten insgesamt weniger Verzögerungen als bei American ein. Beim Erstellen einer Heatmap für einen großen Datensatz sollten Sie überlegen, ob eine andere Variable Auswirkungen auf die Heatmap haben könnte.

Beispiel 4: Korrelationsmatrix

Heatmaps sind auch nützlich, um die Zusammenhänge zwischen vielen Variablen nachzuvollziehen. JMP fügt Heatmaps für die paarweisen Korrelationen zwischen Variablen zu einer Streudiagramm-Matrix hinzu. Abbildung 7 zeigt die zweifaktoriellen Streudiagramme zwischen den vielen Variablen in Bezug auf den Tourismus in Australien. Das obere Dreieck der Matrix zeigt eine Heatmap der Korrelationen zwischen den Variablenpaaren.

Abbildung 7: Korrelationsmatrix

Aus dieser Heatmap entnehmen wir, dass die Schlafräume eine negative Korrelation zwischen den vom Hotel beschäftigten Personen und der durchschnittlichen Aufenthaltsdauer der Gäste und eine positive Korrelation mit allen anderen Variablen aufweisen.