Distribuzione normale

Che cos'è una distribuzione normale?

La distribuzione normale è una distribuzione teorica dei valori relativi a una popolazione. Spesso denominata curva a campana quando vengono tracciati su un grafico, i dati con una distribuzione normale tendono ad accumularsi attorno a un valore centrale; la frequenza dei valori al di sopra e al di sotto del centro diminuisce simmetricamente.

Come viene utilizzata la distribuzione normale?

Molti metodi di analisi statistica presuppongono che i dati provengano da una distribuzione normale. In caso contrario, l'analisi potrebbe non essere corretta.

Posso verificare se i miei dati sono "normali"?

Sì. Puoi fare semplici controlli visivi. La maggior parte dei software statistici eseguirà un test statistico formale.

Definizione della distribuzione normale

Scopri come valutare la normalità utilizzando un software statistico

La distribuzione normale è una distribuzione teorica dei valori relativi a una popolazione e ha una precisa definizione matematica. I valori dei dati che sono un campione di una distribuzione normale sono detti "distribuiti normalmente". Anziché addentrarci in calcoli complessi, vediamo quali sono le utili proprietà della distribuzione normale e perché è importante in fase di analisi.

Innanzitutto, perché ci interessa la distribuzione normale?

  • Molte misure sono normalmente distribuite, o quasi. Esempi sono altezza, peso e frequenza cardiaca. Nota che tutti questi valori sono misurati su una scala con molti valori possibili.
  • Molte medie delle misurazioni sono normalmente distribuite, o quasi. Ad esempio, il tempo di percorrenza giornaliero potrebbe non essere distribuito normalmente. Ma è probabile che la media mensile del tempo di percorrenza giornaliero sia distribuita normalmente.
  • Molti metodi statistici dipendono dalla distribuzione normale dei dati. In questo caso, si legge che il metodo "assume che i dati siano distribuiti normalmente" o "assume la normalità".

Una delle prime azioni per un insieme di valori di dati dovrebbe essere quella di osservare la forma dei dati. La distribuzione normale ha una forma simmetrica. A volte viene chiamata curva a campana perché un grafico della distribuzione assomiglia a una campana appoggiata a terra.

La Figura 1 seguente mostra un istogramma per una serie di valori di dati di esempio insieme a una distribuzione normale teorica (la linea blu curva). L'istogramma è un tipo di grafico a barre che mostra la frequenza dei valori dei dati. Puoi vedere che i dati non corrispondono esattamente alla curva, il che è comune. Infatti, se vedi dati che corrispondono esattamente a una distribuzione normale teorica, vorrai porre molte domande. I dati della vita reale raramente corrispondono esattamente a una distribuzione.

Figura 1: istogramma dei dati distribuiti approssimativamente normalmente

Riepilogo delle caratteristiche

La distribuzione normale ha le seguenti caratteristiche:

  1. È completamente definita dalla media e dalla deviazione standard.
  2. La media, la mediana e la moda sono tutte identiche.
  3. È simmetrica.
  4. È a forma di campana.

Ogni funzionalità è significativa e dice qualcosa sui tuoi dati. Diamo un'occhiata più da vicino:

1. Completamente definita dalla media e dalla deviazione standard

Abbiamo bisogno solo di due valori, la media e la deviazione standard, per tracciare un quadro di una specifica distribuzione normale. (Per esplorare ulteriormente la relazione tra la media e la deviazione standard per i dati distribuiti normalmente, leggi la regola empirica.)

La media e la deviazione standard sono i parametri della distribuzione normale. Tutte le distribuzioni hanno parametri e alcune ne hanno più di due. In ogni situazione, i parametri definiranno una distribuzione specifica.

Vediamo alcuni esempi di curve di distribuzione normale.

La Figura 2 mostra due distribuzioni normali, ciascuna con la stessa media di 30. La distribuzione più alta mostrata in blu ha una deviazione standard di 5. La distribuzione più ampia e più corta mostrata in arancione ha una deviazione standard di 10.

Figura 2: due distribuzioni normali con la stessa media e diverse deviazioni standard

Anche la Figura 3 mostra due distribuzioni normali, ciascuna con la stessa deviazione standard di 5. Quella a sinistra, mostrata in arancione, ha una media di 20, mentre quella a destra, mostrata in blu, ha una media di 40.

Figura 3: due distribuzioni normali con medie diverse e la stessa deviazione standard

La Figura 4 mostra ancora due distribuzioni normali. La distribuzione mostrata in arancione ha una media di 30 e una deviazione standard di 10. La distribuzione in blu ha una media di 40 e una deviazione standard di 5.

Figura 4: due distribuzioni normali con diverse medie e deviazioni standard

2. Media = mediana = moda

La media, la mediana e la moda sono tre modi per misurare il centro di un set di valori di dati. Per una vera distribuzione normale, queste tre sono identiche. In pratica, è probabile che i tuoi dati siano quasi normali. È probabile che la media, la mediana e la moda siano molto vicine tra loro, ma non identiche.

Figura 5: vera distribuzione normale in cui la media, la mediana e la moda sono identiche

3. Simmetrica

La distribuzione normale è simmetrica. Se pensi a piegare il grafico a metà nella media, ogni lato sarà uguale.

4. A forma di campana

La distribuzione normale è a forma di campana con una "gobba" centrale, che può essere vista negli esempi sopra.

La Figura 6 mostra una distribuzione non normale. Ha due gobbe invece di una. Una distribuzione con due gobbe potrebbe indicare la presenza di gruppi diversi che si confondono nei dati. Ad esempio, la frequenza cardiaca è solitamente distribuita normalmente. Ma supponiamo, a tua insaputa, che i dati abbiano la frequenza cardiaca a riposo per due gruppi: atleti e persone inattive. Potresti ottenere una distribuzione bimodale come quella riportata di seguito.

Figura 6: distribuzione bimodale non normale

Se non è normale, è anormale?

Se i dati non sono "normali", significa che sono anormali? No. Significa che i tuoi dati non sono validi? No. Tipi diversi di dati avranno distribuzioni sottostanti diverse.

Esistono molte possibili distribuzioni teoriche. Molti metodi statistici dipendono dai dati provenienti da una distribuzione normale. Quando ciò non è il caso, ci sono altri metodi che puoi utilizzare.

In pratica, scoprirai che i dati sono spesso "quasi normali". Esistono alcuni semplici strumenti visivi per verificare la normalità e la maggior parte dei pacchetti software dispone di test statistici formali per la normalità. 

Quali sono alcuni esempi di dati che non sono normalmente distribuiti?

  • Lanci individuali di un dado a sei facce
  • Lanci di monete
  • Controlli pass/fail nella produzione
  • Tempo di attesa in fila
  • Tempo di guasto delle batterie o di altri componenti elettronici
  • Dimensioni dei file dei video pubblicati su Internet

Anche se gli esempi non sono distribuiti normalmente, esistono metodi di analisi per questo tipo di dati.

Strumenti visivi per verificare la normalità

Utilizzando un istogramma

Come accennato in precedenza, un istogramma è un tipo speciale di grafico a barre di frequenza per variabili continue. Questo grafico può aiutarti a vedere se i dati seguono una curva a campana generale oppure no. Con alcuni pacchetti software, puoi anche aggiungere una curva normale all'istogramma come confronto visivo.

La Figura 7 mostra un esempio di istogramma per dati che non appartengono a una distribuzione normale. 

Figura 7: istogramma per dati non normali

Quando osservi un istogramma come controllo visivo della normalità, verifica se il grafico:

  • Ha valori estremi o no.
  • Segue una curva simmetrica che è quasi la stessa su entrambi i lati.
  • Ha la forma di una campana oppure no.

Come si può notare, la Figura 7 ha valori estremi, non è simmetrica e non è a forma di campana.

Utilizzando un box plot

Un box plot per una distribuzione normale mostra che la media è la stessa della mediana. Mostra inoltre che i dati non presentano valori estremi. I dati saranno simmetrici.

Dai un'occhiata ai due box plot nelle Figure 8 e 9 di seguito. I dati nella Figura 8 provengono da una distribuzione quasi normale. I dati della Figura 9 provengono da una distribuzione non normale. 

Quando guardi un box plot per controllare visivamente la normalità, verifica se il grafico mostra:

  • Valori estremi o no. Il grafico per la distribuzione non normale nella Figura 9 mostra tre valori anomali come punti rossi. Il grafico per la distribuzione quasi normale nella Figura 8 non mostra valori anomali.
  • Simmetria o meno. Il grafico della distribuzione quasi normale (Figura 8) mostra simmetria, mentre il grafico della distribuzione non normale (Figura 9) no. 
  • Media e mediana quasi uguali. In questi box plot, la linea centrale nera orizzontale nel riquadro è la mediana, mentre la linea blu è la media. Per la distribuzione quasi normale nella Figura 8, la linea blu per la media è quasi la stessa della linea al centro del riquadro per la mediana.
Figura 8: box plot per una distribuzione quasi normale
Figura 9: box plot per dati non normali

Utilizzando un diagramma dei quantili normali

Un diagramma dei quantili normali mostra una distribuzione normale come una linea retta anziché come una curva a campana. Se i tuoi dati sono normali, i valori dei dati cadranno vicino alla linea retta. Se i dati non sono normali, i valori dei dati si allontaneranno dalla linea retta. Lo schema dei dati sul grafico può aiutarti a capire perché i tuoi dati non sono distribuiti normalmente. 

La Figura 10 mostra un diagramma dei quantili normali per i dati da una distribuzione normale. Puoi vedere come la maggior parte dei valori dei dati si trova vicino alla linea rossa continua. Inoltre, i valori dei dati rientrano tutti nei limiti di confidenza punteggiati in rosso. 

La Figura 11 mostra dati che non provengono da una distribuzione normale. Alcuni valori dei dati sono vicini alla linea rossa continua, ma la maggior parte no. Alcuni valori dei dati non rientrano nei limiti di confidenza punteggiati in rosso. Ci sono anche alcuni valori estremi in alto a destra. 

Figura 10: diagramma dei quantili normali per dati distribuiti normalmente.
Figura 11: diagramma dei quantili normali per dati che non sono distribuiti normalmente.

La maggior parte dei software statistici creerà diagrammi dei quantili normali. Quando osservi un diagramma dei quantili normali per la normalità, vedi se i dati:

  • Ha valori estremi o no.
  • Seguono per lo più la linea che mostra la distribuzione normale.
  • Rientrano nei limiti di confidenza per la maggior parte del tempo. 

Quando utilizzare la distribuzione normale

Dati continui: SÌ

La distribuzione normale è utile per visualizzare i dati continui, perché si tratta di dati misurati su scale con molti valori possibili. Esempi di dati continui:

  • Età
  • Pressione sanguigna
  • Peso
  • Temperatura
  • Velocità

Per tutti questi esempi, è opportuno prendere in considerazione l'utilizzo di metodi che presuppongono una distribuzione normale. Tuttavia, ricorda che non tutti i dati continui seguiranno una distribuzione normale. Traccia i tuoi dati e pensa a cosa rappresentano i tuoi dati prima di applicare un metodo che presuppone la normalità.

Dati ordinali o nominali: NO

La distribuzione normale non è adatta a dati ordinali o nominali grezzi, perché si tratta di dati misurati su una scala con soltanto pochi valori possibili.

Nel caso di dati ordinali, il campione viene diviso in gruppi e le risposte hanno spesso un ordine specifico. Per esempio, in un sondaggio in cui viene chiesto di dare la propria opinione su una scala da "Per niente d'accordo" a "Molto d'accordo" le risposte sono ordinali.

Nel caso di dati nominali, il campione è sempre diviso in gruppi, che però non seguono un ordine particolare. Due esempi sono il sesso biologico e il paese di residenza. Puoi usare M per maschio e F per femmina nel tuo campione, oppure puoi usare 0 e 1. Per il paese, puoi utilizzare l'abbreviazione del paese, oppure puoi utilizzare numeri per codificare il nome del paese. Anche se utilizzi numeri per questi dati, utilizzare la distribuzione normale non ha senso.

Altri argomenti

Test per la verifica della normalità

La maggior parte dei pacchetti software statistici include test formali per la normalità. Questi test presuppongono che i dati provengano da una distribuzione normale; l'attività di test utilizza quindi i dati per verificare se questa ipotesi è ragionevole o meno. 

Utilizzando una distribuzione a t

La distribuzione normale è una distribuzione teorica. È completamente definita dalla media e dalla deviazione standard della popolazione.

In pratica, non conosciamo quasi mai i valori della popolazione per queste due statistiche. 

La distribuzione a t è molto simile alla distribuzione normale. Utilizza la media campionaria e la deviazione standard campionaria. Poiché utilizza questi valori stimati, necessita di un ulteriore parametro per essere completamente definita.

Il parametro aggiuntivo sono i gradi di libertà, che sono semplicemente la dimensione campionaria meno 1. Se è la dimensione campionaria, i gradi di libertà vengono visualizzati come n-1. Un modo semplice per ricordarlo è che la distribuzione a t ha una sorta di "fattore di correzione" nei gradi di libertà. Questo fattore di correzione tiene conto del fatto che la distribuzione si basa sulla media e sulla deviazione standard del campione invece che sui valori della popolazione sconosciuta.