Istogramma
Che cos'è un istogramma?
Un istogramma mostra la forma, o la distribuzione, dei valori di una variabile continua.
Come si usano gli istogrammi?
Gli istogrammi sono utili per vedere il centro, la distribuzione e la forma di un set di dati. Si possono anche usare come strumento visivo per la verifica della normalità. Gli istogrammi rappresentano uno dei sette strumenti di base nel controllo della qualità statistica.
Quali sono gli aspetti da considerare?
Gli istogrammi rappresentano un ottimo metodo per valutare i dati. Si possono usare per capire meglio la distribuzione dei dati e verificare se sono presenti valori estremi, o outlier. È importante comprendere la distribuzione di una variabile per selezionare gli strumenti di analisi statistica appropriati.
Gli istogrammi mostrano la forma dei dati
Gli istogrammi mostrano la forma dei dati. L'asse orizzontale rappresenta i valori dei dati e ciascuna barra include un range di valori. L'asse verticale indica quanti sono i punti nei dati ad avere i valori compresi nel range specificato della barra. Nell'istogramma in Figura 1, le barre mostrano il conteggio dei valori di ciascun range. Ad esempio, la prima barra rappresenta il conteggio dei valori che rientrano tra 30 e 35.
L'istogramma mostra che il centro è attorno a 45 e la distribuzione dei dati è circa da 30 a 65. Si vede inoltre che i dati hanno una forma vagamente a campana. Questa forma ci fa intuire che probabilmente i dati provengono da una distribuzione normale.
Qual è la differenza tra istogrammi e grafici a barre?
La differenza sostanziale tra istogrammi e grafici a barre è la tipologia di dati rappresentata. Gli istogrammi vengono utilizzati con dati continui, mentre i grafici a barre con dati categorici o nominali.
Negli istogrammi non ci sono spazi tra le barre, le quali rappresentano il numero dei valori riscontrati all'interno di un range specificato sull'asse orizzontale. Nei grafici a barre possono esserci degli spazi tra le barre. In questo caso, le barre rappresentano i valori misurati per ogni categoria.
Come si crea un istogramma?
Per generare un istogramma, è necessario determinare il range di valori dei dati di ciascuna barra. I range delle barre si chiamano bin e, nella maggior parte dei casi, sono di dimensioni uguali. Con bin uguali, l'altezza delle barre mostra la frequenza dei valori di dati di ciascun bin. Ad esempio, per creare un istogramma che rappresenti l'età in anni, si può pensare di far corrispondere a ogni bin un decennio (0-10, 11-20 e via dicendo). L'altezza della barra mostra il numero di persone di ogni decennio.
Con i software, i bin sono definiti dal programma. Tuttavia, alcuni strumenti software consentono di modificare il numero e i punti di inizio dei bin per studiare e capire meglio i dati.
La Figura 2 mostra gli stessi dati della Figura 1, ma con molte più barre. Si riesce ancora a distinguere il centro, la distribuzione e la forma dei dati. Tuttavia, risulta più complicato vedere la forma generale rispetto alla prima figura.
La Figura 3 mostra gli stessi dati della Figura 1, ma con sole tre barre o bin. In questo modo è molto più complicato visualizzare il centro, la forma e la distribuzione dei dati.
La seguente animazione mostra come utilizzare JMP e lo strumento Mano per osservare i limiti variabili dei bin relativi ai dati mostrati nelle Figure da 1 a 3.
Anche se il software usato non permette l'esplorazione interattiva, a volte capita di voler modificare i valori e gli incrementi degli assi per studiare i dati.
Come osservare i valori di dati estremi negli istogrammi
I valori estremi, o outlier, influiscono sugli istogrammi. Le Figure 5 e 6 mostrano rispettivamente un set di dati con outlier esclusi e inclusi.
Nelle figure qui sopra, la scala degli assi orizzontali di entrambi gli istogrammi va da 20 a 90. La maggior parte dei software mostrerebbe l'istogramma senza l'outlier e riducendone la scala. In Figura 6 è applicata la stessa scala per mostrare come vengono visualizzati gli outlier in un istogramma quando hanno valori più alti rispetto agli altri dati. Inoltre, gli outlier possono avere anche valori più bassi rispetto agli altri dati o essere presenti su entrambi i lati della distribuzione.
Come osservare l'asimmetria negli istogrammi
Non tutti gli istogrammi sono simmetrici. Gli istogrammi mostrano la distribuzione dei dati, e ci sono molti tipi comuni di distribuzioni. Per esempio, capita spesso che i dati non siano simmetrici. In statistica vengono definiti dati asimmetrici. Per fare un esempio, la durata della batteria di un telefono si traduce spesso in un dato asimmetrico, in quanto alcuni telefoni hanno una batteria che dura molto più che negli altri.
La Figura 7 mostra dati quasi simmetrici. Se si immagina di piegare il grafico a metà in corrispondenza del centro, i due lati saranno pressoché uguali.
L'istogramma in Figura 8 mostra dati asimmetrici. Con una coda di valori che si allunga verso sinistra, l'asimmetria è accentuata da quel lato. Pertanto, si tratta di una distribuzione ad asimmetria negativa.
Anche l'istogramma in Figura 9 mostra dati asimmetrici. Con una coda di valori che si allunga verso destra, l'asimmetria è accentuata da quel lato. Pertanto, si tratta di una distribuzione ad asimmetria positiva.
Come osservare i gruppi di dati negli istogrammi
Se i dati possono essere suddivisi in gruppi, può essere opportuno creare un istogramma per ogni gruppo invece di uno unico. C'è da dire che, qualora non si sappia se i dati possano essere suddivisi in gruppi o non se ne abbia la certezza, l'istogramma può mostrare dei pattern da cui è facile dedurlo.
Per esempio, il grafico in Figura 10 riporta dati relativi a uomini e donne. Si ritiene che vi possano essere differenze tra i dati delle due categorie.
Questo grafico con una forma vagamente a campana mostra dei dati con il centro vicino a 22 e una distribuzione che va da 7 a 32.
La Figura 11 mostra i dati relativi agli uomini evidenziati dalla porzione a righe di ciascuna barra. Tali dati hanno una forma vagamente a campana.
La Figura 12 mostra un grafico in cui i dati relativi alle donne sono indicati con barre a righe. Tali dati hanno una forma vagamente a campana.
Il grafico di cui sopra mostra alcuni esempi in cui la differenza tra gruppi ha un suo impatto, ma la distribuzione generale dei valori è la stessa per entrambi. Nel confrontare gli istogrammi evidenziati per uomini e donne, si nota che gli uomini registrano valori bassi più spesso delle donne. C'è anche una notevole sovrapposizione, ma gli istogrammi supportano l'idea che ci sia una differenza tra uomini e donne.
La figura 13 mostra le principali differenze tra i due gruppi. Se si guarda l'istogramma, si noterà che i dati non hanno la tipica forma a campana. Nel grafico, i dati del primo gruppo sono indicati da barre a righe: come si può vedere, il gruppo ha una forma vagamente a campana, con una distribuzione che va da 5 a 15 e un centro intorno al 9. Il secondo gruppo è rappresentato da barre tinta unita e ha una forma completamente diversa, con una distribuzione compresa tra 20 e 32 e il centro sul 23.
Questi grafici consentono di fare una considerazione importante: quando si crea un istogramma, bisogna verificare se i dati sono suddivisibili in gruppi. Se così fosse, sarebbe potenzialmente più facile estrapolare maggiori informazioni dai dati creando un istogramma diverso per ciascun gruppo. Alcuni software permettono di studiare le differenze tra gruppi con un unico istogramma, come mostrato nelle figure qui sopra.
Istogrammi e tipi di dati
Dati continui e istogrammi
Gli istogrammi sono utili per visualizzare i dati continui, perché si tratta di dati misurati su scale con molti valori possibili. Esempi di dati continui:
- Età
- Pressione sanguigna
- Peso
- Temperatura
- Velocità
L'istogramma è uno strumento grafico adatto a esplorare la distribuzione dei dati di ognuno di questi esempi.
Dati categorici o nominali e grafici a barre
Gli istogrammi non sono adatti a dati categorici o nominali, perché si tratta di dati misurati su una scala con soltanto pochi valori possibili. Per questo, conviene usare i grafici a barre.
Nel caso di dati categorici, spesso il campione viene diviso in gruppi e le risposte hanno un ordine specifico. Per esempio, in un sondaggio in cui viene chiesto di dare la propria opinione su una scala da “Per niente d'accordo” a “Molto d'accordo” le risposte sono categoriche.
Nel caso di dati nominali, il campione è sempre diviso in gruppi, che però non seguono un ordine particolare. Un esempio di variabile nominale è il paese di residenza. La codifica può essere la sigla del nome del paese oppure un numero, ma in ogni caso si tratta solo di attribuire un nome a gruppi di dati diversi.