Tipi di grafici

Di seguito sono elencati diversi tipi di grafici che è possibile utilizzare nell'analisi esplorativa dei dati (EDA). Facendo clic su ciascun tipo è possibile vederne un esempio, il numero di variabili impiegate e lo scopo.

Istogrammi

  • Numero di variabili: 1.
  • Mostra la forma o la distribuzione dei dati; è utile per l'identificazione degli outlier.
  • Maggiori informazioni sugli istogrammi.
Figura 1: Istogramma

Istogrammi affiancati

  • Numero di variabili: 2.
  • Mostra la forma o la distribuzione di gruppi di dati; è utile per l'identificazione degli outlier.
Figura 2: Istogrammi affiancati con due variabili

Grafici a barre

  • Numero di variabili: 1.
  • Mostra il conteggio della frequenza dei valori di una variabile categorica; può essere verticale (come mostrato in Figura 3) oppure orizzontale.
  • Ulteriori informazioni sui grafici a barre.
Figura 3: Grafico a barre che mostra un conteggio

Grafici a barre raggruppate

  • Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
  • Mostra grafici a barre per i gruppi definiti da un'altra variabile. I grafici a barre raggruppate presentano un grafico diverso per ciascun livello della variabile di raggruppamento.
Figura 4: Grafici a barre raggruppate

Grafici a barre impilate

  • Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
  • Mostra grafici a barre per i gruppi definiti da un'altra variabile. I grafici a barre impilate hanno una sola barra per ciascun livello della variabile di raggruppamento. I colori o i pattern dei conteggi di un'altra variabile sono impilati in ciascuna barra.
Figura 5: Grafico a barre impilate che mostra una singola barra per ciascun livello della variabile di raggruppamento

Diagrammi di Pareto

  • Numero di variabili: 1.
  • Mostra i conteggi di frequenza ordinati di una variabile. Utile nell'evidenziare i “vital few”, ossia i pochi elementi essenziali. I diagrammi di Pareto, che sono dei grafici a barre particolari, spesso includono una curva della percentuale cumulativa.
  • Ulteriori informazioni sui diagrammi di Pareto.
Figura 6: Diagramma di Pareto che mostra le frequenze ordinate di una variabile

Grafici a barre riempite

  • Numero di variabili: 1.
  • Mostra i conteggi di frequenza ordinati di una variabile. Utilizzato in sostituzione di un diagramma di Pareto, specialmente in presenza di svariate categorie. Utile nell'evidenziare i “vital few”, ossia i pochi elementi essenziali.
  • Ulteriori informazioni sui grafici a barre riempite.
Figura 7: Grafico a barre riempite che mostra le frequenze ordinate di una variabile su più categorie

Diagrammi a mosaico

  • Numero di variabili: 2 o più.
  • Mostra le possibili relazioni tra le variabili categoriche. Utile per trovare errori nei dati, come gli errori di battitura nelle categorie. Si tratta di un tipo particolare di grafico a barre impilate che mostra più di una variabile sull'asse x.
  • Ulteriori informazioni sui diagrammi a mosaico.
Figura 8: Diagramma a mosaico che mostra le possibili relazioni tra variabili categoriche

Mappe ad albero

  • Numero di variabili: 2 o più.
  • Mostra le possibili relazioni tra le variabili. Si tratta di un particolare tipo di grafico a barre impilate che ha colori, ordini e dimensioni diverse a seconda delle variabili.
  • Ulteriori informazioni sulle mappe ad albero.
Figura 9: Mappa ad albero che mostra le relazioni tra variabili

Box plot

  • Numero di variabili: 1.
  • Mostra la distribuzione dei dati. Le parti della scatola indicano il 25° percentile, il 50° percentile (percentile mediano) e il 75° percentile. A seconda dei dati, i baffi mostrano il minimo e il massimo, mentre gli outlier compaiono oltre i baffi. Viene usato per trovare gli errori nei dati e studiare una variabile.
  • Ulteriori informazioni sui box plot.
Figura 10: Box plot

Box plot affiancati

  • Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
  • Mostra box plot per i gruppi definiti da un'altra variabile. Viene usato per trovare gli errori nei dati e studiare due o più variabili.
Figura 11: Box plot affiancati utilizzati per studiare due o più variabili

Diagrammi dei quantili normali

  • Numero di variabili: 1.
  • Determina se l'assunto che una variabile abbia una distribuzione normale è corretto.
Figura 12: Diagramma dei quantili normali utilizzato per determinare se una variabile ha una distribuzione normale

Grafici a linee

  • Numero di variabili: 2.
  • Mostra i cambiamenti nel tempo. I valori sull'asse x devono essere ordinati cronologicamente. I grafici a linee, chiamati anche grafici lineari o carte sequenziali, sono utili per trovare gli outlier.
  • Maggiori informazioni sui grafici a linee.
Figura 13: Grafico a linee che mostra i cambiamenti nel tempo

Grafici a linee con categorie

  • Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
  • Mostra grafici a linee multiple per i gruppi definiti da un'altra variabile. Usato per capire i cambiamenti nel tempo delle variabili multiple e per identificare gli outlier.
Figura 14: Grafico a linee con categorie utilizzato per comprendere il cambiamento di più variabili nel tempo

Grafici a dispersione

  • Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi per colori o indicatori.
  • Mostra un possibile rapporto tra due variabili, identificando gli outlier. Aggiungere colori e/o marcatori per altre variabili può aiutare con l'EDA. Inserire linee di riferimento o specifiche dei limiti contribuisce a identificare gli outlier.
  • Maggiori informazioni sui grafici a dispersione.
Figura 15: Grafico a dispersione che mostra la possibile relazione tra due variabili

Matrice grafico a dispersione

  • Numero di variabili: molte.
  • Mostra le possibili relazioni tra variabili multiple, tenendo in considerazione tutte le combinazioni a due vie. Si possono aggiungere ulteriori grafici: istogrammi per ogni variabile per l'identificazione degli outlier, ellissi di densità per ciascun grafico a dispersione per l'identificazione degli outlier multidimensionali e heatmap delle correlazioni per chiarire le possibili relazioni.
Figura 16: Matrice di un grafico a dispersione che mostra le possibili relazioni tra più variabili

Grafici a torta

  • Numero di variabili: 1 o più.
  • Mostra i rapporti di una parte con il tutto per una data variabile. Aggiungere categorie per più grafici a torta è più utile che usare un grafico a torta singolo. Nel caso di un'unica variabile, un grafico a barre può essere più utile per distinguere differenze minime tra i valori.
  • Ulteriori informazioni sui grafici a torta.
Figura 17: Grafico a torta che mostra le relazioni tra le parti e l'intero di una variabile

Heatmap

  • Numero di variabili: 2 o più.
  • Mostra le possibili relazioni tra le variabili. Si usa soprattutto per i dati che cambiano nel tempo. Sfrutta i colori per analizzare le relazioni tra le variabili.
  • Ulteriori informazioni sulle heatmap.
Figura 18: Heatmap che mostra le possibili relazioni tra variabili

Diagrammi ramo e foglia

  • Numero di variabili: 1.
  • Mostra la forma dei dati e identifica gli outlier. Prima dell'avvento dei computer era molto più diffuso, mentre ora al suo posto si usano più spesso gli istogrammi.
Figura 19: Diagramma ramo e foglia che mostra la forma dei dati e identifica gli outlier