Media, mediana e moda

Cos'è la media?

La media misura il centro di un insieme di valori di dati. Per i dati continui, la media è il punto medio dei valori dei dati.

Come viene utilizzata la media?

La media di un campione di valori di dati viene utilizzata per stimare la vera media della popolazione sconosciuta. La media viene spesso utilizzata come semplice statistica riassuntiva di un insieme di dati. Viene utilizzata insieme alla deviazione standard per il calcolo degli intervalli statistici, delle statistiche dei test di ipotesi e dei limiti della carta di controllo.

Quali sono gli aspetti da considerare riguardo alla media?

La media può essere influenzata da valori estremi. Quando si hanno valori estremi o una distribuzione distorta, la mediana potrebbe essere una misura migliore del centro. Prima di utilizzare la media, controlla se ci sono valori estremi nei dati e guarda un grafico per vedere se i dati sono approssimativamente simmetrici.

Qual è la mediana?

La mediana è il 50° percentile dei dati del campione. In altre parole, il 50% dei valori dei dati sono al di sopra della mediana e il 50% al di sotto della mediana. La mediana è un'altra stima del centro dei dati nel campione.

Cos'è la moda?

La moda è il valore più frequente nei tuoi dati. Un set di dati che non contiene valori ripetuti non ha una moda. Un set di dati con più valori che si ripetono alla stessa frequenza può avere più mode. La moda è un'altra statistica utilizzata per stimare il centro dei dati.

La media descrive il centro di un set di dati 

Supponiamo di avere un insieme di valori di dati e di tracciarli come mostrato nella Figura 1. L'asse orizzontale rappresenta i valori dei dati. L'asse verticale mostra quanti punti ha un dato valore di dati. In termini statistici, questo è un istogramma o una distribuzione dei valori dei dati. La media stima il centro dei dati.

Figura 1: istogramma dei valori dei dati

Qual è la media di una popolazione?

La media della popolazione è il centro della popolazione teorica ed è spesso sconosciuta.

Pensiamo a un esempio in cui si conosce la popolazione. Supponiamo di voler conoscere la velocità media del vento degli uragani atlantici dal 1950. Si tratta di una popolazione relativamente piccola. I dati sono disponibili per tutti gli uragani atlantici dal 1950 che hanno toccato terra. Puoi facilmente calcolare la media della popolazione.

Ma in molti casi, non conoscerai la vera media della popolazione perché non avrai dati sull'intera popolazione.

La media della popolazione è indicata nelle formule dalla lettera greca per "m minuscola" o "mu". Il simbolo è μ.

Qual è la media campionaria?

Per stimare la media della popolazione sconosciuta, raccogli un campione di dati e quindi calcola la media di quel campione.

La media campionaria misura il centro dei dati nel campione. Questa è una stima della media della popolazione.

Il simbolo statistico per la media campionaria nelle formule è una x con una riga o una barra sopra di essa; si chiama "barra X" e si presenta così .

Qual è la differenza tra media campionaria, media aritmetica e media del campione?

Questi sono tre termini usati per la media campionaria. Sono uguali.

Poiché la media della popolazione è spesso sconosciuta, vedrai il termine "media" utilizzato per "media del campione". Quando si leggono articoli che parlano di "reddito medio" o "temperatura media", di solito si riferiscono alla media dei dati del campione.

Non è vero che il 50% è "sopra la media"

Molte persone commettono l'errore comune di assumere che il 50% dei valori dei dati sia superiore alla media del campione e il 50% sia inferiore. Spesso non è vero. Questo errore confonde la media e la mediana, che in alcune situazioni coincidono.

Come calcolare la media

Per calcolare la media, somma tutti i numeri per i valori dei dati nel tuo campione e poi dividi per il numero di valori dei dati che hai. Esploriamo questo calcolo con un semplice esempio.

Si supponga che i valori dei dati siano 4, 5 e 6. Per calcolare la media:

$\frac{(4+5+6)}{3} = \frac{15}{3} = 5$

In genere si utilizza un software per calcolare la media. La formula della media è:

$\overline{x}=\frac{Σx_i}{n}$

Nella formula riportata sopra, il campione ha n valori di dati. Ogni valore di dati è rappresentato da xi. Il simbolo di somma $Σ$ significa che i valori dei dati dovrebbero essere sommati, proprio come abbiamo fatto nell'esempio.

Per la media della popolazione sconosciuta, la dimensione della popolazione è spesso indicata con una N maiuscola. Nella rara situazione in cui è possibile calcolare la media della popolazione, la formula è la stessa e utilizza N anziché n.

La mediana

La mediana è il 50° percentile dei dati del campione. È sempre vero che il 50% dei valori dei dati è superiore alla mediana e il 50% è inferiore alla mediana. Proprio come con la media, abbiamo una vera mediana della popolazione sconosciuta e una mediana del campione. La vera mediana della popolazione è raramente conosciuta.

Sia la media che la mediana stimano il centro dei dati ed entrambe vengono spesso riportate. Come vedremo di seguito, la mediana è meno influenzata da valori di dati estremi o da dati non simmetrici.

Come calcolare la mediana

Per calcolare la mediana, ordina prima i valori dei dati campione dal basso all'alto e poi trova il valore medio.

Questo è più facile da capire con un paio di semplici esempi.

Supponiamo che i valori dei dati siano di nuovo 4, 5 e 6.

Innanzitutto, ordina i valori dal basso verso l'alto: 4, 5 e 6. 

Il valore medio, che in questo esempio è 5, è la mediana. Metà dei dati sono al di sopra della mediana e l'altra metà al di sotto.

Per un secondo esempio, supponiamo di avere un numero pari di valori di dati nel campione, diciamo 7, 4, 5 e 6. Non esiste un unico valore medio.

Innanzitutto, ordina i valori dei dati dal basso verso l'alto: 4, 5, 6 e 7.

In secondo luogo, trova i due valori centrali: 5 e 6. 

In terzo luogo, prendi la media di questi due valori sommando i due valori e dividendo per 2. Il risultato è la mediana. Nel nostro esempio:

$\frac{5+6}{2} = \frac{11}{2} = 5,5$

In entrambi gli esempi, la mediana è il valore medio. Metà dei dati del campione è al di sopra della mediana e metà al di sotto.

Per il secondo esempio, abbiamo 4, 5, 5,5, 6, 7, quindi la mediana di 5,5 si trova al centro dei valori campione ordinati dei dati.

In genere si utilizza un software per calcolare la mediana.

La moda

La moda è un'altra statistica utilizzata per stimare il centro dei dati. La moda è il valore che ricorre più frequentemente.

Ad esempio, supponiamo che i valori dei dati siano 3, 4, 4, 4, 5 e 6. 

La moda è 4 perché è il valore più frequente.

La maggior parte dei software statistici calcola la moda. Tuttavia, in pratica, la moda non viene utilizzata tanto spesso quanto la media o la mediana; ci concentreremo su queste ultime due per il resto di questa pagina.

In che modo i valori di dati estremi influiscono sulla media campionaria e sulla mediana campionaria

La media campionaria può essere sensibile a valori estremi dei dati. Modificando leggermente l'esempio precedente, supponiamo che i valori dei dati campione siano ora 4, 5 e 12.

La media campionaria è: 

{3} = {frac{21}{3} = 7$

La mediana campionaria è il valore intermedio dei valori ordinati dei dati 4, 5 e 12, ovvero 5.

Confrontiamolo con l'esempio precedente. I valori dei dati di 4, 5 e 6 avevano una media e una mediana di 5. Modificando un singolo valore di dati da 6 a 12, la mediana non è cambiata, ma la media è cambiata da 5 a 7. 

Per set di dati più grandi, un singolo valore estremo di dati può avere un impatto maggiore sulla media campionaria ma un impatto minore sulla mediana campionaria. Diciamo che la mediana è resistente ai valori anomali o ai valori estremi dei dati.

Le distribuzioni seguenti mostrano un set di dati con un valore anomalo escluso (Figura 2) e quindi con il valore anomalo incluso (Figura 3).

Figura 2: distribuzione del set di dati con valori anomali esclusi
Figura 3: distribuzione del set di dati con valori anomali inclusi

Entrambi i set di dati hanno una mediana di 44,6. I dati senza il valore anomalo hanno una media di 45,3, mentre quelli con il valore anomalo hanno una media di 45,6. Entrambi gli istogrammi hanno una scala degli assi da 20 a 90.

ATTENZIONE! Non eliminare un valore di dati estremo solo perché è lì. Dovresti provare a scoprire se il valore estremo dei dati è un errore o un'anomalia. Se si tratta di un errore, è necessario provare a correggere il valore. Se non riesci a identificare il valore estremo come errore, non dovresti ometterlo. In questa situazione, puoi decidere di riportare la tua analisi con e senza i dati discutibili.

Ad esempio, supponiamo di raccogliere dati sulla pressione sanguigna. Una persona nel campione ha una pressione sanguigna sistolica di 95. Si tratta di un valore basso ma ragionevole. Tuttavia, la stessa persona ha una pressione sanguigna diastolica di 95. È molto improbabile che questo dato sia corretto. È necessario trovare i dati originali e cercare di confermare se questo punto di dati rappresenta un errore.   

In che modo la simmetria dei dati influisce sulla media campionaria e sulla mediana campionaria

La media campionaria e la mediana campionaria sono diverse quando i dati non sono simmetrici. Quando i dati non sono simmetrici, si dice che hanno una distribuzione asimmetrica.

Si considerino tre distribuzioni: simmetrica, asimmetrica a sinistra e asimmetrica a destra.

L'istogramma in Figura 4 qui sotto mostra dati quasi simmetrici. Se immaginiamo di piegare il grafico a metà in corrispondenza del centro, i due lati saranno pressoché uguali. La media e la mediana sono molto simili.

L'istogramma in Figura 5 mostra dati asimmetrici. Questi dati hanno più valori bassi. L'istogramma è inclinato a sinistra. La statistica di asimmetria è negativa e la media è inferiore alla mediana.

Anche l'istogramma in Figura 6 mostra dati asimmetrici. Questi dati hanno più valori alti. L'istogramma è inclinato a destra. La statistica di asimmetria è positiva e la media è superiore alla mediana.

Figura 4: distribuzione di dati quasi simmetrici
Figura 5: dati asimmetrici con deviazione a sinistra
Figura 6: dati asimmetrici con deviazione a destra

Quando usare la media e la mediana

Le Figure 7-9 mostrano i tipi di dati per i quali è opportuno utilizzare la media e la mediana.

Figura 7: distribuzione di dati continui, per i quali è possibile calcolare la media campionaria e la mediana campionaria.
Figura 8: distribuzione di dati ordinali, per i quali la media campionaria e la mediana campionaria non devono essere calcolate.
Figura 9: distribuzione di dati nominali, per i quali la media campionaria e la mediana campionaria non devono essere calcolate.

Dati continui: media e mediana sono opportune

La media e la mediana sono misure statistiche adatte per i dati continui. Questi dati sono misurati su una scala con molti valori possibili. Esempi di dati continui:

  • Età
  • Pressione sanguigna
  • Peso
  • Temperatura
  • Velocità

Per tutti questi esempi, ha senso calcolare la media e la mediana.

Dati ordinali o nominali: media e mediana non sono applicabili

La media e la mediana non sono adatte per rappresentare i dati ordinali o nominali, perché si tratta di dati misurati su una scala con soltanto pochi valori possibili.

Nel caso di dati ordinali, il campione viene diviso in gruppi e le risposte hanno un ordine ben definito. Per esempio, in un sondaggio in cui viene chiesto di dare la propria opinione su una scala da "Per niente d'accordo" a "Molto d'accordo" (Figura 8), le risposte sono ordinali.

Nel caso di dati nominali, il campione è sempre diviso in gruppi, che però non seguono un ordine particolare. Due esempi sono il sesso biologico e il paese di residenza. In rare situazioni, quando i dati nominali sono codificati con un valore numerico, è possibile calcolare le medie. L'interpretazione della media dipenderà dalla codifica. Ad esempio, se i generi sono codificati utilizzando 0 per i maschi e 1 per le femmine e viene calcolata la media campionaria, è possibile ottenere un valore di 0,6. Questo valore rappresenta la percentuale di femmine nel campione, il che ha senso. Per il paese, se dovessi codificare il nome del paese con valori numerici, potresti calcolare una media. Tuttavia, non avrebbe senso; la media non avrebbe alcuna interpretazione significativa.