Box plot
Cos'è un box plot?
Un box plot mostra la distribuzione dei dati per una variabile continua.
Come viene utilizzato?
Un box plot consente di visualizzare il centro e la distribuzione dei dati. Inoltre, lo si può usare come strumento visivo per la verifica della normalità o per identificare possibili outlier.
Box plot e diagramma a scatola e baffi sono la stessa cosa?
Sì. I box plot vengono chiamati anche box plot degli outlier o box plot dei quantili. Tra l'uno e l'altro cambia solo il modo in cui vengono disegnati.
Quali sono gli aspetti da considerare?
Nell'usare un box plot, verifica la presenza di valori estremi nei tuoi dati. Fai particolare attenzione se disponi di un set di dati molto ridotto. Se vi fossero variabili categoriche o nominali, usa un grafico a barre.
I box plot mostrano la distribuzione dei dati
Il termine “box plot” si riferisce a un box plot degli outlier, chiamato anche diagramma a scatola e baffi o box plot di Tukey. Altri tipi di box plot sono descritti nella seguente sezione “Confronto tra i box plot dei quantili e degli outlier”.
Ecco gli elementi fondamentali di un box plot:
- La linea centrale nella scatola rappresenta la mediana dei dati. La metà dei dati si trova sopra questo valore, l'altra metà sotto. Se i dati sono simmetrici, la mediana è al centro della scatola. Se, invece, i dati sono asimmetrici, la mediana sarà più vicina alla parte superiore o a quella inferiore della scatola.
- La parte inferiore e superiore della scatola mostrano il 25° e il 75° quantile, o percentile. Questi due quantili sono chiamati anche quartili, poiché ciascuno di essi esclude un quarto (25 %) dei dati. La lunghezza della scatola è la differenza tra i due percentili e si chiama range interquartile (IQR).
- Le linee che si estendono a partire dalla scatola sono chiamate baffi. I baffi rappresentano la variazione dei dati attesa e si estendono per 1,5 volte dall'IQR dalla parte superiore e inferiore della scatola. Se i dati non arrivano fino alla fine dei baffi, significa che i baffi si estendono fino ai valori di dati minimi e massimi. Se, invece, i dati ricadono sopra o sotto la fine dei baffi, sono rappresentati come punti, denominati spesso outlier. Un outlier è più estremo della variazione attesa. Vale la pena esaminare questi punti di dati per determinare se sono errori o outlier. I baffi non comprendono gli outlier.
La Figura 1 mostra un box plot:
La mediana è vicina al centro della scatola nel diagramma in Figura 1, il che significa che i valori di dati sono più o meno simmetrici. La Figura 4 di seguito, invece, mostra il caso di dati non simmetrici.
Confronto tra i box plot dei quantili e degli outlier
Sia i box plot degli outlier sia quelli dei quantili mostrano la mediana, il 25° e il 75° percentile. Il 25° percentile è anche il 25° quantile, per cui il 25 % dei dati è inferiore al 25° quantile. I box plot dei quantili aggiungono il 2,5°, il 10°, il 90° e il 97,5° quantile al box plot degli outlier. La Figura 2 mostra un box plot dei quantili e uno degli outlier che rappresentano gli stessi dati.
Confronto tra box plot e istogrammi
Sia i box plot sia gli istogrammi mostrano la forma dei dati. Entrambi possono essere usati per identificare punti insoliti o outlier. La Figura 3 mostra un box plot degli outlier e un istogramma che rappresentano lo stesso set di dati. In questo esempio, l'istogramma è verticale invece che orizzontale.
Usare entrambi i tipi di grafici può essere molto utile con certi tipi di dati. I box plot aiutano a individuare le asimmetrie, perché in caso di asimmetria la linea di mediana non è al centro del riquadro. Un grafico a box plot consente di identificare il 25° e 75° percentile meglio degli istogrammi, mentre un istogramma permette di visualizzare la forma complessiva dei dati meglio del box plot.
Come si fa a creare un box plot?
In passato, i box plot andavano creati manualmente. Oggi, la maggior parte delle persone si affida a qualche software per evitare di fare calcoli manuali, riducendo la possibilità di errore. Un box plot si basa su quello che è noto come riepilogo a cinque numeri, cioè il valore minimo, il 25° percentile, la mediana, il 75° percentile e il valore massimo in un certo set di dati. Basandosi su questi cinque numeri è possibile creare un box plot. A partire da qualunque set di dati, quindi, si può produrre un box plot in cinque passaggi:
- Calcolare la mediana, il 25° e il 75° percentile.
- Calcolare il range interquartile (IQR) come differenza tra il 75° e il 25° percentile.
- Calcolare la lunghezza massima dei baffi moltiplicando l'IQR per 1,5.
- Identificare gli outlier.
- Usare le statistiche così calcolate per inserire i risultati in un box plot.
Esempio di box plot
I dati sui cereali nel box plot mostrato di seguito riportano i risultati della misurazione delle calorie assunte con una porzione di 76 tipi diversi di cereali. La variabile Calorie è continua, per cui ha senso servirsi di un box plot per questo calcolo.
Questi dati sono asimmetrici, poiché la mediana di 102 è molto più vicina al 25° percentile di 101 che al 75° percentile di 200.
Aggiungere la media a un box plot
In base al software usato, è possibile migliorare il box plot. JMP, ad esempio, consente di aggiungere un rombo delle medie, come mostrato in Figura 5. La parte inferiore e superiore del rombo rappresentano un intervallo di confidenza del 95 % per la media. La parte centrale del rombo è la media del campione, ossia una stima della media della popolazione.
Per i dati sui cereali, la media è superiore alla mediana. La differenza tra media e mediana indica che i dati sono asimmetrici e che probabilmente non provengono da una distribuzione normale.
Con JMP, è inoltre possibile aggiungere caratteristiche ai grafici. Il box plot in Figura 6 mostra una spessa linea verde inserita a metà del rombo delle medie, che aiuta a mostrare la differenza tra media e mediana.
JMP offre inoltre strumenti di annotazione, come mostrato in Figura 7:
Questo grafico riepiloga le statistiche base relative alle calorie, mostrando la distribuzione dei dati e mettendone in evidenza l'asimmetria, indice che provengono da una distribuzione non normale.
Identificazione degli outlier
I box plot consentono di identificare punti di dati interessanti, detti outlier. Tali valori vengono inseriti nel grafico come punti di dati ma ricadono al di fuori dei baffi. La figura 8 mostra un box plot con tre outlier, rappresentati come punti rossi al di sopra del baffo superiore. Questi tre punti hanno un valore superiore a IQR x 1,5. I punti che si trovano al di fuori di un valore di IQR x 1,5 sono fuori dallo spettro di variazione attesa dei dati.
Gli outlier influiscono su media, mediana e altri percentili. Poiché in un box plot i punti estremi vengono evidenziati, i punti di dati da studiare sono di facile identificazione. Da un'analisi successiva, potrebbe emergere che gli outlier corrispondono a errori nei dati o che le motivazioni della loro natura insolita sono altre. Per esempio, se i tre outlier in Figura 8 sono al di fuori dell'intervallo di valori atteso, è necessario determinare se si tratta di punti di dati validi o meno.
Esempio di box plot per i gruppi
Se i dati sono divisibili in gruppi, è possibile ottenere maggiori informazioni creando box plot affiancati: una soluzione semplice e potente per il confronto tra gruppi.
Un modo per valutare lo stato di forma di una persona è quello di misurarne la percentuale di grasso corporeo. La maggior parte delle linee guida prevede che vi sia una differenza nelle percentuali di grasso corporeo tra uomo e donna (per ulteriori informazioni su questi dati, consultare la pagina relativa al test t a due campioni). Quella relativa al grasso corporeo è una variabile continua, quindi il box plot è un buon metodo per mostrare la distribuzione dei dati. La Figura 9 mostra due diversi box plot affiancati per gli uomini e per le donne.
Dal grafico emerge che la mediana relativa al grasso corporeo degli uomini è inferiore rispetto a quella delle donne e si vede anche che i range dei due gruppi si sovrappongono. I dati relativi agli uomini hanno una maggiore asimmetria di quelli associati alle donne, mentre nessuno dei due gruppi presenta outlier. JMP consente di aggiungere rombi delle medie, linee per ciascuna media e annotazioni a questi box plot.
Affiancare due diversi box plot può essere utile per mostrare le differenze tra i gruppi e identificare gli outlier.
Box plot e tipi di dati
Dati continui e box plot
I box plot sono utili per visualizzare i dati continui, perché si tratta di dati misurati su scale con molti valori possibili. Esempi di dati continui:
- Età
- Pressione sanguigna
- Peso
- Temperatura
- Velocità
Il box plot è uno strumento grafico adatto a esplorare la distribuzione dei dati di ognuno di questi esempi.
Dati categorici o nominali e grafici a barre
I box plot non sono adatti per rappresentare i dati categorici o nominali, perché si tratta di dati misurati su una scala con valori specifici. Per questo, conviene usare i grafici a barre.
Nel caso di dati categorici, spesso il campione viene diviso in gruppi e le risposte possono avere un ordine ben definito. Per esempio, in un sondaggio in cui viene chiesto di dare la propria opinione su una scala da “Per niente d'accordo” a “Molto d'accordo” le risposte sono categoriche.
Nel caso di dati nominali, il campione è sempre diviso in gruppi, che però non seguono un ordine particolare. Un esempio di variabile nominale è il paese di residenza. La codifica può essere la sigla del nome del paese oppure un numero, ma in ogni caso si tratta solo di attribuire un nome a gruppi di dati diversi.