Deviazione standard

Cos'è la deviazione standard?

La deviazione standard misura la distribuzione di un insieme di valori di dati. Una deviazione standard elevata indica un'ampia gamma di valori di dati, mentre una deviazione standard bassa indica una distribuzione ristretta di valori raggruppati attorno alla media del set di dati.

Come viene utilizzata la deviazione standard?

La deviazione standard viene utilizzata per analizzare la variabilità in un set di valori di dati. Viene anche utilizzata insieme alla media per il calcolo degli intervalli statistici, delle statistiche dei test di ipotesi e dei limiti della carta di controllo.

Quali sono gli aspetti da considerare riguardo alla deviazione standard?

La deviazione standard può essere influenzata da valori estremi e/o piccoli set di dati. Assicurati di considerare in che modo i valori anomali possono influire sulla tua analisi. Inoltre, la deviazione standard è rilevante solo per i dati continui.

La deviazione standard descrive la distribuzione di un insieme di dati.

Supponiamo di avere una serie di valori di dati e di tracciarli come nei grafici sottostanti. L'asse orizzontale rappresenta i valori dei dati. L'asse verticale misura la frequenza di ciascun valore di dati. In termini statistici, si tratta di un istogramma, o distribuzione, dei valori dei dati. La deviazione standard è un numero singolo che stima la distribuzione, o larghezza, dei dati.

Figura 1: istogramma dei valori dei dati con un'ampia distribuzione
Figura 2: istogramma dei valori dei dati con una distribuzione ristretta

Qual è la deviazione standard della popolazione?

In statistica, la popolazione è l'intero insieme di dati che stai cercando di comprendere e su cui trarre alcune conclusioni. In molti casi, a causa delle dimensioni della popolazione, è impossibile raccogliere dati su ogni elemento di una popolazione. In queste situazioni, la deviazione standard della popolazione misura la distribuzione della popolazione teorica ed è quasi sempre sconosciuta.

Pensiamo a un esempio in cui conosci la popolazione. Supponiamo di voler conoscere la distribuzione della velocità del vento per gli uragani atlantici dal 1950. Si tratta di una popolazione relativamente piccola. Poiché i dati sono prontamente disponibili per tutti gli uragani dell'Atlantico che hanno toccato terra a partire dal 1950, è possibile calcolare la deviazione standard della popolazione.

Qual è la deviazione standard del campione?

Per stimare la deviazione standard della popolazione sconosciuta, raccogli un campione di dati. Quindi calcoli la deviazione standard di quel campione. La deviazione standard del campione misura la distribuzione dei dati nel campione. Questa è una stima della deviazione standard della popolazione.

Qual è la differenza tra la deviazione standard e la varianza?

La deviazione standard è la radice quadrata della varianza. Sia la deviazione standard che la varianza sono misure della distribuzione. La deviazione standard è nelle stesse unità dei dati. Ad esempio, se si misura l'età in anni, anche la deviazione standard è in anni, e questo è uno dei motivi per cui si usa la deviazione standard invece della varianza. È più semplice pensare all'"età in anni" che all'"età al quadrato in anni".

Qual è la differenza tra la deviazione standard e il coefficiente di variazione (CV)?

Il coefficiente di variazione, o CV, è la deviazione standard divisa per la media. Il CV viene utilizzato per confrontare la deviazione standard dei set di dati su una scala comune. Il CV viene utilizzato come indicatore della precisione di un sistema di misura.

Quali sono i possibili valori della deviazione standard?

La deviazione standard è quasi sempre un valore positivo. Un'eccezione: se tutti i valori nel set di dati sono uguali, la deviazione standard è zero. Non vi è alcuna variabilità o dispersione nei dati.

Come calcolare la deviazione standard

Per calcolare la deviazione standard del campione, calcola prima la media del campione. Quindi, per ogni valore di dati, trova la differenza tra il valore e la media del campione. Poi, eleva al quadrato queste differenze e sommale. Infine, dividi la somma per il numero di valori dei dati meno uno per ottenere la varianza del campione. Per ottenere la deviazione standard, prendi la radice quadrata. La deviazione standard è nelle stesse unità dei dati.

Esploriamo questo calcolo con un semplice esempio. Supponiamo di misurare la frequenza cardiaca a riposo di sei persone. La maggior parte delle persone ha una frequenza cardiaca a riposo compresa tra 60 e 100 battiti al minuto (BPM). Gli atleti possono avere una frequenza cardiaca a riposo sana fino a 40. Le frequenze cardiache elevate possono essere un problema di salute o semplicemente il risultato della misurazione della frequenza cardiaca durante l'esercizio.

Supponiamo che i valori dei dati siano:

55
60
65
75
80
85

Innanzitutto, calcola la media campionaria sommando i valori dei dati e dividendo per il numero di valori:

$\frac{(55+60+65+75+80+85)}{6} = \frac{420}{6} = 70$

Successivamente, calcola la differenza tra ogni valore di dati e la media del campione:

Differenza dalla media
55-70 = -15
60-70 = -10
65-70 = -5
75-70 = 5
80-70 = 10
85-70 = 15

Calcolando le differenze, si ottiene un'idea della distanza di ciascun valore di dati dalla media campionaria.

Poi, eleviamo al quadrato le differenze. Se sommassi semplicemente le differenze, otterresti zero, suggerendo che non vi era alcuna dispersione nei dati. Questo non è vero. Elevando al quadrato le differenze prima di sommarle, si ottiene una misura positiva della distanza dalla media sia per i punti al di sopra che al di sotto della media del campione.

Differenza dalla mediaDifferenza quadratica
55-70 = -15225
60-70 = -10100
65-70 = -525
75-70 = 525
80-70 = 10100
85-70 = 15225

Quindi, prendi la somma delle differenze al quadrato:

$225+100+25+25+100+225=700$

Poiché ci sono sei valori di dati, dividi la somma di cui sopra per 6 – 1 = 5:

$\frac{700}{5} = 140$

Perché non dividere per 6? La risposta semplice è che in questi calcoli è stata utilizzata la media campionaria. Se conosci la media del campione e cinque valori di dati, puoi calcolare il sesto punto dati. Questo esempio utilizza quello che viene chiamato un grado di libertà nel calcolo della media. Statisticamente, quando si divide per n-1, si ottiene una stima non distorta della varianza.

A questo punto, hai determinato la varianza del campione. È nelle unità di "battiti quadrati al minuto", che è difficile da interpretare. Quindi il passaggio finale è prendere la radice quadrata per ottenere la deviazione standard del campione:

$\RadQua{140}=11,8$

Sulla base del campione di sei persone, la media del campione è di 70 BPM, con una deviazione standard di 11,8 BPM, il che ha senso.

In genere si utilizzerà un software per calcolare la deviazione standard del campione. La formula per la deviazione standard del campione è:

$\RadQua{\frac{Σ^n_{i=1}(x_i - \overline{x})^2}{n-1}}$

Nella formula riportata sopra, il campione ha n valori di dati. Ogni valore di dati è rappresentato da una x. Il simbolo x̅ rappresenta la media campionaria. Il simbolo Σ è il simbolo di somma; in questa formula, significa che ciascuna delle differenze al quadrato tra un valore di dati e la media del campione deve essere sommata, proprio come nell'esempio.

Deviazione standard della popolazione

Nelle rare situazioni in cui si dispone di dati per l'intera popolazione, il calcolo della deviazione standard è leggermente diverso rispetto a un campione della popolazione. Per l'intera popolazione, la dimensione della popolazione è indicata con la N maiuscola. La formula è:

$\RadQua{\frac{Σ^N_{i=1}(x_i - μ)^2}{N}}$

La formula precedente utilizza la dimensione della popolazione (N) e la media della popolazione (μ). L'idea alla base della formula è la stessa della formula per la deviazione standard del campione.

Comprensione della deviazione standard

Visualizzare la deviazione standard

La figura 3 illustra come la deviazione standard sia una stima della distribuzione dei valori dei dati. La linea centrale mostra la media campionaria (70) dei sei valori di frequenza cardiaca dell'esempio precedente. Per due dei valori (65 e 80), il grafico evidenzia il calcolo della differenza rispetto alla media.

È possibile notare che le differenze sono negative quando il valore dei dati è inferiore alla media e positive quando il valore dei dati è superiore alla media. Elevando al quadrato le differenze, le differenze positive e negative non si annullano a vicenda.

Sommando tutte le differenze al quadrato, si ottengono le distribuzioni combinate tra ogni valore di dati e la media. Somme più piccole indicano una minore dispersione dei valori dei dati; somme più grandi indicano una maggiore dispersione dei valori dei dati.

Figura 3: differenza rispetto alla media campionaria per due punti dati

Interpretare la deviazione standard

La maggior parte delle volte, riporti sia la media che la deviazione standard. Questo aiuta a contestualizzare la deviazione standard.

Deviazioni standard più piccole indicano che la maggior parte dei valori dei dati si avvicina alla media del campione. Deviazioni standard maggiori indicano che i valori dei dati sono più distribuiti e che alcuni valori sono più lontani dalla media campionaria.

Ad esempio, nella Figura 4 riportata di seguito, si supponga che la media campionaria dei dati sia 13. Quando la deviazione standard del campione è 3, rappresentata dalla linea arancione continua, puoi vedere che una maggior parte dei dati è vicina alla media del campione. Quando la deviazione standard del campione è 6, rappresentata dalla linea blu tratteggiata, i dati sono più distribuiti. Alcuni valori sono più lontani dalla media del campione.

Figura 4: deviazioni standard maggiori indicano dati più distanti dalla media rispetto a deviazioni standard più piccole.

In che modo i valori di dati estremi influiscono sulla deviazione standard del campione?

I valori estremi dei dati possono avere un impatto significativo sulla deviazione standard del campione. Continuiamo con il nostro esempio sulla frequenza cardiaca.

In precedenza, i valori dei nostri dati per la frequenza cardiaca erano:

55
60
65
75
80
85

Abbiamo trovato una media campionaria di 70 BPM e una deviazione standard del campione di 11,8 BPM.

Supponiamo di avere ora la frequenza cardiaca di un'altra persona:

55
60
65
75
80
85
140

Non ripercorreremo tutti i calcoli, ma ora abbiamo una media campionaria di 80 BPM e una deviazione standard del campione di 28,6 BPM. Questo singolo valore estremo ha avuto un effetto significativo sia sulla media del campione che sulla deviazione standard del campione.

ATTENZIONE! Non eliminare un valore di dati estremo solo perché non sembra corretto. Per prima cosa prova a scoprire se il valore estremo dei dati è dovuto a un errore di qualche tipo. Se è il risultato di un errore, dovresti provare a trovare il valore corretto. Se non è possibile determinare che si è verificato un errore, non omettere il valore dati estremo. In questa situazione, puoi decidere di riportare la tua analisi con e senza i dati discutibili.

Per i dati sulla frequenza cardiaca, il valore estremo potrebbe essere la frequenza cardiaca a riposo reale di una persona. In tal caso, vorrai mantenerlo nei dati. Oppure il valore estremo potrebbe essere la frequenza cardiaca di qualcuno subito dopo l'allenamento, che è diversa dagli altri valori di dati che misurano la frequenza cardiaca a riposo. Il punto è che è necessario indagare ulteriormente prima di decidere come gestire valori di dati estremi.

Utilizzando simboli statistici

Deviazione standard e varianza della popolazione

La deviazione standard della popolazione è indicata nelle formule dalla lettera greca "sigma". Il simbolo è σ.

La varianza della popolazione è indicata comeσ2.

Molte formule statistiche utilizzano σ quando definiscono test di ipotesi o nelle formule per le analisi.

Ricorda che quasi sempre non conoscerai la deviazione standard o la varianza della popolazione.

Deviazione standard e varianza del campione

La deviazione standard del campione è indicata nelle formule con una s minuscola in corsivo.

La varianza campionaria è mostrata nelle formule come s2.

Quando utilizzare la deviazione standard

Dati continui: SÌ

La deviazione standard ha senso per i dati continui. Questi dati sono misurati su una scala con molti valori possibili. Esempi di dati continui:

  • Età
  • Pressione sanguigna
  • Peso
  • Temperatura
  • Velocità.

Per tutti questi esempi ha senso calcolare la deviazione standard.

Figura 5: utilizzare la deviazione standard con dati continui.

Dati ordinali o nominali: NO

Come definito qui, la deviazione standard non ha senso per i dati ordinali o nominali. Questi dati vengono misurati su una scala con pochi valori possibili. Esistono altre statistiche che stimano la distribuzione di un insieme di valori di dati ordinali o nominali.

I dati ordinali sono in genere suddivisi in gruppi con un ordine specifico. Per esempio, supponi di partecipare a un sondaggio in cui ti viene chiesto di dare la tua opinione su una scala da "Per niente d'accordo" a "Molto d'accordo". Le tue risposte sono ordinali: vedi la Figura 6 di seguito.

I dati nominali dividono il campione in gruppi, ma non seguono un ordine particolare. Due esempi sono il sesso biologico e il paese di residenza (Figura 7). Puoi utilizzare M per Maschio e F per Femmina nel tuo campione oppure puoi usare 0 e 1. Per il paese, puoi utilizzare l'abbreviazione del paese, oppure puoi utilizzare numeri per codificare il nome del paese. Se si utilizzano numeri per questi dati, è possibile calcolare la deviazione standard del campione, ma non avrà alcun senso.

Figura 6: non utilizzare la deviazione standard con i dati ordinali.
Figura 7: non utilizzare la deviazione standard con i dati nominali.

Altre misure di variabilità

La deviazione standard è un modo per stimare la distribuzione dei dati. Anche l'intervallo e il range interquartile (IQR) stimano la distribuzione. A differenza della deviazione standard, nessuna di queste statistiche coinvolge il centro dei dati. Queste statistiche possono essere utilizzate con piccoli set di dati (il range) o set di dati distorti (IQR). 

Range

Il range è la differenza tra il valore più basso e il valore più alto dei dati.

Range interquartile (IQR)

Il range interquartile è la differenza tra il 25° e il 75° percentile nei tuoi dati. L'IQR è quindi meno influenzato dai valori estremi rispetto al range o alla deviazione standard. Se i tuoi dati hanno valori estremi o sono distorti, l'IQR potrebbe essere una buona scelta per descrivere la variabilità del tuo set di dati.