Heatmap

Che cos'è una heatmap?

Una heatmap sfrutta i colori per mostrare cambiamenti e grandezze di una terza variabile in un grafico bidimensionale.

Come si usa?

Le heatmap vengono utilizzate per mostrare pattern e cambiamenti. Se da un lato possono essere usate per indicare dei cambiamenti nel tempo, non sono progettate per analisi più dettagliate.

Le heatmap mostrano rapporti e cambiamenti

Una heatmap è un grafico a rettangoli. L'asse delle x in genere indica una misura di tempo, ma può essere una qualunque variabile che presenti dei raggruppamenti. L'asse delle y rappresenta una variabile che definisce le categorie nei dati. A differenza delle mappe ad albero, in una heatmap ogni rettangolo ha le stesse dimensioni. I rettangoli assumono colori diversi per mostrare la grandezza di una terza variabile. Se inizialmente venivano usate per le temperature, oggi le heatmap vengono usate per molti tipi di dati diversi. 

Le heatmap sono utili per set di dati di una certa dimensione. Una heatmap con un asse temporale può essere utilizzata per visualizzare i pattern e i cambiamenti di una certa variabile nel tempo. I rettangoli di una heatmap possono essere etichettati con i valori della variabile colore, cosa utile solo ove l'asse delle y presenti un numero ridotto di categorie.

La Figura 1 mostra una heatmap delle temperature massime in tre aeroporti statunitensi per settimana all'anno. La legenda sulla destra illustra il significato dei colori di ciascun rettangolo. JMP scala e colora la heatmap in base ai dati. 

Figura 1: Heatmap delle temperature massime in tre aeroporti statunitensi per settimana all'anno

Il grafico in Figura 1 mostra il funzionamento base di una heatmap. I mesi più freddi sono quelli invernali, i più caldi quelli estivi.

La Figura 2 mostra un'heatmap con le etichette corrispondenti.

Figura 2: Heatmap con etichette

Il software colora automaticamente le etichette in modo che siano leggibili se sovrapposte ai rettangoli colorati. Una heatmap con un numero maggiore di rettangoli non consente di visualizzare le etichette. 

Esempi di heatmap

Esempio 1: Temperature e aeroporti

La Figura 3 espande la heatmap di base mostrando tutti gli aeroporti nel set di dati. 

Figura 3: Heatmap con tutti gli aeroporti

Nella Figura 3 vediamo che la temperatura massima è più bassa in inverno e più alta in estate. Dal momento che gli aeroporti sono ordinati in base alla latitudine dall'alto verso il basso, vediamo che quelli più a nord tendono a registrare temperature inferiori rispetto a quelli a sud durante tutto l'anno. Le celle vuote rappresentano i dati mancanti. 

Confrontiamo questa heatmap con la Figura 1, in cui vengono mostrati solo tre aeroporti. JMP scala e colora automaticamente l'heatmap in base alla gamma di variabili utilizzate per colorare i dati dell'heatmap. Per questa ragione, i tre aeroporti hanno colori diversi nella prima heatmap e nella Figura 3, che include tutti i dati. 

Esempio n. 2: Variazione della popolazione nel tempo

Le heatmap possono essere usate per molti tipi di dati. Quella rappresentata in Figura 4 mostra la variazione della popolazione in diverse regioni statunitensi nell'arco di un secolo. 

Figura 4: Heatmap che mostra la variazione nel tempo della popolazione per regione

 

Questa heatmap mostra che nell'ultimo secolo alcune regioni hanno registrato una variazione di popolazione minima. L'Alaska e le Hawaii, ad esempio, mantengono lo stesso colore nella heatmap, mentre negli Stati atlantici del sud si è verificata la maggiore variazione di popolazione nel tempo.

Esempio n. 3: Ritardi delle compagnie aeree con un set di dati di grandi dimensioni

Le heatmap sono utili soprattutto per l'identificazione di pattern in set di dati di grandi dimensioni. Il grafico in Figura 5 riassume i dati di più di 29 000 voli. La heatmap mostra il ritardo medio degli arrivi di sei compagnie aeree. I rettangoli sono definiti in base al mese (sull'asse y) e al giorno (sull'asse x).

Figura 5: Heatmap dei ritardi degli arrivi delle compagnie aeree suddivisi per mesi e giorni

Dai colori dell'heatmap, vediamo che i maggiori ritardi medi si registrano nei mesi estivi e in dicembre. Inoltre, si possono notare delle celle vuote indicanti dati mancanti, in particolare per i mesi con meno di 31 giorni, a significare che non ci sono voli per quei giorni.

Combinare set di dati molto grandi richiede sempre un po' di cautela. In alcuni casi, c'è un'altra variabile che può avere un impatto significativo sull'heatmap. Nel caso dei dati sui ritardi delle linee aeree, l'heatmap varia da una linea aerea all'altra. I grafici in Figura 6 mostrano heatmap per Southwest e American Airlines.

Figura 6: Heatmap dei ritardi delle compagnie aeree American Airlines e Southwest Airlines

Nonostante le heatmap delle due compagnie aeree mostrino più ritardi in estate e in dicembre, i due quadri complessivi sono diversi. In generale, Southwest registra meno ritardi di American. Quando si crea una heatmap per un set di dati di grandi dimensioni, bisogna sempre chiedersi se un'altra variabile può influire sulla heatmap.

Esempio 4: Matrice di correlazione

Le heatmap sono utili anche per capire le relazioni tra molte variabili. JMP aggiunge le heatmap delle correlazioni appaiate tra le variabili alla matrice di un grafico a dispersione. La Figura 7 mostra i grafici a dispersione a due vie con molte variabili riguardanti il turismo australiano. Il triangolo superiore della matrice mostra una heatmap delle correlazioni tra coppie di variabili. 

Figura 7: Matrice di correlazione

Osservando queste heatmap, notiamo che, per quanto riguarda i posti letto, c'è una correlazione negativa con il numero di dipendenti dell'hotel e con la durata media dei soggiorni e una correlazione positiva con tutte le altre variabili.