Box plot

Cos'è un box plot?

Un box plot mostra la distribuzione dei dati per una variabile continua. 

Come viene utilizzato?

Un box plot consente di visualizzare il centro e la distribuzione dei dati. Inoltre, lo si può usare come strumento visivo per la verifica della normalità o per identificare possibili outlier. 

Box plot e diagramma a scatola e baffi sono la stessa cosa?

Sì. I box plot vengono chiamati anche box plot degli outlier o box plot dei quantili. Tra l'uno e l'altro cambia solo il modo in cui vengono disegnati.

Quali sono gli aspetti da considerare?

Nell'usare un box plot, verifica la presenza di valori estremi nei tuoi dati. Fai particolare attenzione se disponi di un set di dati molto ridotto. Se vi fossero variabili categoriche o nominali, usa un grafico a barre.

I box plot mostrano la distribuzione dei dati

Il termine “box plot” si riferisce a un box plot degli outlier, chiamato anche diagramma a scatola e baffi o box plot di Tukey. Altri tipi di box plot sono descritti nella seguente sezione “Confronto tra i box plot dei quantili e degli outlier”.

Ecco gli elementi fondamentali di un box plot:

  • La linea centrale nella scatola rappresenta la mediana dei dati. La metà dei dati si trova sopra questo valore, l'altra metà sotto. Se i dati sono simmetrici, la mediana è al centro della scatola. Se, invece, i dati sono asimmetrici, la mediana sarà più vicina alla parte superiore o a quella inferiore della scatola.
  • La parte inferiore e superiore della scatola mostrano il 25° e il 75° quantile, o percentile. Questi due quantili sono chiamati anche quartili, poiché ciascuno di essi esclude un quarto (25 %) dei dati. La lunghezza della scatola è la differenza tra i due percentili e si chiama range interquartile (IQR).
  • Le linee che si estendono a partire dalla scatola sono chiamate baffiI baffi rappresentano la variazione dei dati attesa e si estendono per 1,5 volte dall'IQR dalla parte superiore e inferiore della scatola. Se i dati non arrivano fino alla fine dei baffi, significa che i baffi si estendono fino ai valori di dati minimi e massimi. Se, invece, i dati ricadono sopra o sotto la fine dei baffi, sono rappresentati come punti, denominati spesso outlier. Un outlier è più estremo della variazione attesa. Vale la pena esaminare questi punti di dati per determinare se sono errori o outlier. I baffi non comprendono gli outlier.

La Figura 1 mostra un box plot: 

Figura 1: Box plot con etichette dei percentili

La mediana è vicina al centro della scatola nel diagramma in Figura 1, il che significa che i valori di dati sono più o meno simmetrici. La Figura 4 di seguito, invece, mostra il caso di dati non simmetrici.

Confronto tra i box plot dei quantili e degli outlier

Sia i box plot degli outlier sia quelli dei quantili mostrano la mediana, il 25° e il 75° percentile. Il 25° percentile è anche il 25° quantile, per cui il 25 % dei dati è inferiore al 25° quantile. I box plot dei quantili aggiungono il 2,5°, il 10°, il 90° e il 97,5° quantile al box plot degli outlier. La Figura 2 mostra un box plot dei quantili e uno degli outlier che rappresentano gli stessi dati.

Figura 2: Confronto tra box plot dei quantili e box plot degli outlier

Confronto tra box plot e istogrammi

Sia i box plot sia gli istogrammi mostrano la forma dei dati. Entrambi possono essere usati per identificare punti insoliti o outlier. La Figura 3 mostra un box plot degli outlier e un istogramma che rappresentano lo stesso set di dati. In questo esempio, l'istogramma è verticale invece che orizzontale.

Figura 3: Confronto tra box plot e istogramma

Usare entrambi i tipi di grafici può essere molto utile con certi tipi di dati. I box plot aiutano a individuare le asimmetrie, perché in caso di asimmetria la linea di mediana non è al centro del riquadro. Un grafico a box plot consente di identificare il 25° e 75° percentile meglio degli istogrammi, mentre un istogramma permette di visualizzare la forma complessiva dei dati meglio del box plot.

Come si fa a creare un box plot?

In passato, i box plot andavano creati manualmente. Oggi, la maggior parte delle persone si affida a qualche software per evitare di fare calcoli manuali, riducendo la possibilità di errore. Un box plot si basa su quello che è noto come riepilogo a cinque numeri, cioè il valore minimo, il 25° percentile, la mediana, il 75° percentile e il valore massimo in un certo set di dati. Basandosi su questi cinque numeri è possibile creare un box plot. A partire da qualunque set di dati, quindi, si può produrre un box plot in cinque passaggi:

  1. Calcolare la mediana, il 25° e il 75° percentile.
  2. Calcolare il range interquartile (IQR) come differenza tra il 75° e il 25° percentile.
  3. Calcolare la lunghezza massima dei baffi moltiplicando l'IQR per 1,5.
  4. Identificare gli outlier.
  5. Usare le statistiche così calcolate per inserire i risultati in un box plot.

 

Esempio di box plot

I dati sui cereali nel box plot mostrato di seguito riportano i risultati della misurazione delle calorie assunte con una porzione di 76 tipi diversi di cereali. La variabile Calorie è continua, per cui ha senso servirsi di un box plot per questo calcolo. 

Figura 4: Box plot con dati continui

Questi dati sono asimmetrici, poiché la mediana di 102 è molto più vicina al 25° percentile di 101 che al 75° percentile di 200. 

Aggiungere la media a un box plot

In base al software usato, è possibile migliorare il box plot. JMP, ad esempio, consente di aggiungere un rombo delle medie, come mostrato in Figura 5. La parte inferiore e superiore del rombo rappresentano un intervallo di confidenza del 95 % per la media. La parte centrale del rombo è la media del campione, ossia una stima della media della popolazione.

Figura 5: Box plot con indicazione della media statistica

Per i dati sui cereali, la media è superiore alla mediana. La differenza tra media e mediana indica che i dati sono asimmetrici e che probabilmente non provengono da una distribuzione normale.

Con JMP, è inoltre possibile aggiungere caratteristiche ai grafici. Il box plot in Figura 6 mostra una spessa linea verde inserita a metà del rombo delle medie, che aiuta a mostrare la differenza tra media e mediana.

Figura 6: Box plot con una linea che indica la differenza tra media statistica e mediana

JMP offre inoltre strumenti di annotazione, come mostrato in Figura 7:

Figura 7: Box plot al quale è stato aggiunto un riepilogo statistico

Questo grafico riepiloga le statistiche base relative alle calorie, mostrando la distribuzione dei dati e mettendone in evidenza l'asimmetria, indice che provengono da una distribuzione non normale.

Identificazione degli outlier

I box plot consentono di identificare punti di dati interessanti, detti outlier. Tali valori vengono inseriti nel grafico come punti di dati ma ricadono al di fuori dei baffi. La figura 8 mostra un box plot con tre outlier, rappresentati come punti rossi al di sopra del baffo superiore. Questi tre punti hanno un valore superiore a IQR x 1,5. I punti che si trovano al di fuori di un valore di IQR x 1,5 sono fuori dallo spettro di variazione attesa dei dati. 

Figura 8: Box plot con outlier

Gli outlier influiscono su media, mediana e altri percentili. Poiché in un box plot i punti estremi vengono evidenziati, i punti di dati da studiare sono di facile identificazione. Da un'analisi successiva, potrebbe emergere che gli outlier corrispondono a errori nei dati o che le motivazioni della loro natura insolita sono altre. Per esempio, se i tre outlier in Figura 8 sono al di fuori dell'intervallo di valori atteso, è necessario determinare se si tratta di punti di dati validi o meno.

Esempio di box plot per i gruppi

Se i dati sono divisibili in gruppi, è possibile ottenere maggiori informazioni creando box plot affiancati: una soluzione semplice e potente per il confronto tra gruppi. 

Un modo per valutare lo stato di forma di una persona è quello di misurarne la percentuale di grasso corporeo. La maggior parte delle linee guida prevede che vi sia una differenza nelle percentuali di grasso corporeo tra uomo e donna (per ulteriori informazioni su questi dati, consultare la pagina relativa al test t a due campioni). Quella relativa al grasso corporeo è una variabile continua, quindi il box plot è un buon metodo per mostrare la distribuzione dei dati. La Figura 9 mostra due diversi box plot affiancati per gli uomini e per le donne.

Figura 9: Box plot affiancati per confrontare la distribuzione dei dati sul grasso corporeo tra uomini e donne

Dal grafico emerge che la mediana relativa al grasso corporeo degli uomini è inferiore rispetto a quella delle donne e si vede anche che i range dei due gruppi si sovrappongono. I dati relativi agli uomini hanno una maggiore asimmetria di quelli associati alle donne, mentre nessuno dei due gruppi presenta outlier. JMP consente di aggiungere rombi delle medie, linee per ciascuna media e annotazioni a questi box plot.

Affiancare due diversi box plot può essere utile per mostrare le differenze tra i gruppi e identificare gli outlier.

Box plot e tipi di dati

 

Figura 10: Dati continui, adatti ai box plot
Figura 11: Dati categorici, più adatti ai grafici a barre che ai box plot
Figura 12: Box plot con dati categorici, non adatti a questo tipo di diagramma
Figura 2: Dati nominali, più adatti ai grafici a barre che ai box plot
Figura 14: Box plot con dati nominali, non adatti a questo tipo di diagramma

Dati continui e box plot

I box plot sono utili per visualizzare i dati continui, perché si tratta di dati misurati su scale con molti valori possibili. Esempi di dati continui:

  • Età
  • Pressione sanguigna
  • Peso
  • Temperatura
  • Velocità

Il box plot è uno strumento grafico adatto a esplorare la distribuzione dei dati di ognuno di questi esempi.

Dati categorici o nominali e grafici a barre

I box plot non sono adatti per rappresentare i dati categorici o nominali, perché si tratta di dati misurati su una scala con valori specifici. Per questo, conviene usare i grafici a barre.

Nel caso di dati categorici, spesso il campione viene diviso in gruppi e le risposte possono avere un ordine ben definito. Per esempio, in un sondaggio in cui viene chiesto di dare la propria opinione su una scala da “Per niente d'accordo” a “Molto d'accordo” le risposte sono categoriche.

Nel caso di dati nominali, il campione è sempre diviso in gruppi, che però non seguono un ordine particolare. Un esempio di variabile nominale è il paese di residenza. La codifica può essere la sigla del nome del paese oppure un numero, ma in ogni caso si tratta solo di attribuire un nome a gruppi di dati diversi.