Tipi di grafici
Di seguito sono elencati diversi tipi di grafici che è possibile utilizzare nell'analisi esplorativa dei dati (EDA). Facendo clic su ciascun tipo è possibile vederne un esempio, il numero di variabili impiegate e lo scopo.
Istogrammi
- Numero di variabili: 1.
- Mostra la forma o la distribuzione dei dati; è utile per l'identificazione degli outlier.
- Maggiori informazioni sugli istogrammi.
Istogrammi affiancati
- Numero di variabili: 2.
- Mostra la forma o la distribuzione di gruppi di dati; è utile per l'identificazione degli outlier.
Grafici a barre
- Numero di variabili: 1.
- Mostra il conteggio della frequenza dei valori di una variabile categorica; può essere verticale (come mostrato in Figura 3) oppure orizzontale.
- Ulteriori informazioni sui grafici a barre.
Grafici a barre raggruppate
- Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
- Mostra grafici a barre per i gruppi definiti da un'altra variabile. I grafici a barre raggruppate presentano un grafico diverso per ciascun livello della variabile di raggruppamento.
Grafici a barre impilate
- Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
- Mostra grafici a barre per i gruppi definiti da un'altra variabile. I grafici a barre impilate hanno una sola barra per ciascun livello della variabile di raggruppamento. I colori o i pattern dei conteggi di un'altra variabile sono impilati in ciascuna barra.
Diagrammi di Pareto
- Numero di variabili: 1.
- Mostra i conteggi di frequenza ordinati di una variabile. Utile nell'evidenziare i “vital few”, ossia i pochi elementi essenziali. I diagrammi di Pareto, che sono dei grafici a barre particolari, spesso includono una curva della percentuale cumulativa.
- Ulteriori informazioni sui diagrammi di Pareto.
Grafici a barre riempite
- Numero di variabili: 1.
- Mostra i conteggi di frequenza ordinati di una variabile. Utilizzato in sostituzione di un diagramma di Pareto, specialmente in presenza di svariate categorie. Utile nell'evidenziare i “vital few”, ossia i pochi elementi essenziali.
- Ulteriori informazioni sui grafici a barre riempite.
Diagrammi a mosaico
- Numero di variabili: 2 o più.
- Mostra le possibili relazioni tra le variabili categoriche. Utile per trovare errori nei dati, come gli errori di battitura nelle categorie. Si tratta di un tipo particolare di grafico a barre impilate che mostra più di una variabile sull'asse x.
- Ulteriori informazioni sui diagrammi a mosaico.
Mappe ad albero
- Numero di variabili: 2 o più.
- Mostra le possibili relazioni tra le variabili. Si tratta di un particolare tipo di grafico a barre impilate che ha colori, ordini e dimensioni diverse a seconda delle variabili.
- Ulteriori informazioni sulle mappe ad albero.
Box plot
- Numero di variabili: 1.
- Mostra la distribuzione dei dati. Le parti della scatola indicano il 25° percentile, il 50° percentile (percentile mediano) e il 75° percentile. A seconda dei dati, i baffi mostrano il minimo e il massimo, mentre gli outlier compaiono oltre i baffi. Viene usato per trovare gli errori nei dati e studiare una variabile.
- Ulteriori informazioni sui box plot.
Box plot affiancati
- Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
- Mostra box plot per i gruppi definiti da un'altra variabile. Viene usato per trovare gli errori nei dati e studiare due o più variabili.
Diagrammi dei quantili normali
- Numero di variabili: 1.
- Determina se l'assunto che una variabile abbia una distribuzione normale è corretto.
Grafici a linee
- Numero di variabili: 2.
- Mostra i cambiamenti nel tempo. I valori sull'asse x devono essere ordinati cronologicamente. I grafici a linee, chiamati anche grafici lineari o carte sequenziali, sono utili per trovare gli outlier.
- Maggiori informazioni sui grafici a linee.
Grafici a linee con categorie
- Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
- Mostra grafici a linee multiple per i gruppi definiti da un'altra variabile. Usato per capire i cambiamenti nel tempo delle variabili multiple e per identificare gli outlier.
Grafici a dispersione
- Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi per colori o indicatori.
- Mostra un possibile rapporto tra due variabili, identificando gli outlier. Aggiungere colori e/o marcatori per altre variabili può aiutare con l'EDA. Inserire linee di riferimento o specifiche dei limiti contribuisce a identificare gli outlier.
- Maggiori informazioni sui grafici a dispersione.
Matrice grafico a dispersione
- Numero di variabili: molte.
- Mostra le possibili relazioni tra variabili multiple, tenendo in considerazione tutte le combinazioni a due vie. Si possono aggiungere ulteriori grafici: istogrammi per ogni variabile per l'identificazione degli outlier, ellissi di densità per ciascun grafico a dispersione per l'identificazione degli outlier multidimensionali e heatmap delle correlazioni per chiarire le possibili relazioni.
Grafici a torta
- Numero di variabili: 1 o più.
- Mostra i rapporti di una parte con il tutto per una data variabile. Aggiungere categorie per più grafici a torta è più utile che usare un grafico a torta singolo. Nel caso di un'unica variabile, un grafico a barre può essere più utile per distinguere differenze minime tra i valori.
- Ulteriori informazioni sui grafici a torta.
Heatmap
- Numero di variabili: 2 o più.
- Mostra le possibili relazioni tra le variabili. Si usa soprattutto per i dati che cambiano nel tempo. Sfrutta i colori per analizzare le relazioni tra le variabili.
- Ulteriori informazioni sulle heatmap.
Diagrammi ramo e foglia
- Numero di variabili: 1.
- Mostra la forma dei dati e identifica gli outlier. Prima dell'avvento dei computer era molto più diffuso, mentre ora al suo posto si usano più spesso gli istogrammi.