Test t a un campione

In che cosa consiste un test t a un campione?

Il test t a un campione è il test di un'ipotesi statistica utilizzato per determinare se una media di una popolazione sconosciuta si discosta da un valore specifico.

Quando ha senso usare questo test?

Questo test può essere utilizzato in presenza di dati continui. I dati fanno riferimento a un campione casuale di una popolazione a distribuzione normale.

E se i dati non fossero distribuiti normalmente?

In caso di dimensioni campionarie molto piccole, potrebbe non essere possibile effettuare la verifica di normalità. In quel caso non si può fare altro che affidarsi alla propria comprensione dei dati. Se non si può assumere con certezza la normalità di un'ipotesi, si può comunque eseguire un test non parametrico.

Utilizzare il test t a un campione

Le sezioni seguenti illustrano ciò che serve per il test e spiegano come verificare i dati, eseguire il test e capirne i risultati e i dettagli statistici.

Che cosa serve?

Per il test t a un campione è necessaria una variabile.

La nostra idea, o ipotesi, è che la media della popolazione abbia un qualche valore. Ecco due esempi:

  • Un ospedale ha un campione casuale di misurazioni del colesterolo di soggetti maschili. I pazienti in questione sono stati visitati per problematiche diverse dal colesterolo e non assumono farmaci per il colesterolo alto. L'ospedale vuole sapere se la media sconosciuta del colesterolo dei pazienti è diversa dal livello auspicato di 200 mg.
  • Misuriamo i grammi di proteine di un campione di barrette energetiche. Secondo le etichette, le barrette contengono 20 grammi di proteine e noi vogliamo verificare se è effettivamente così.

Assunti del test t a un campione

Per ottenere un test valido, i valori di dati devono essere:

  • Indipendenti (i valori non sono correlati tra loro).
  • Continui.
  • Ottenuti tramite un campione casuale semplice della popolazione.

Inoltre, si ipotizza che la popolazione sia distribuita normalmente.

Esempio di test t a un campione

Immaginiamo di raccogliere un campione casuale di 31 barrette energetiche da negozi diversi per rappresentare la popolazione di barrette a disposizione dei consumatori. Secondo le etichette, ciascuna barretta contiene 20 grammi di proteine.

Tabella 1: Grammi di proteine in un campione casuale di barrette energetiche

Barrette energetiche - Grammi di proteine
20,7027,4622,1519,8521,2924,75
20,7522,9125,3420,3321,5421,08
22,1419,5621,1018,0424,1219,95
19,7218,2816,2617,4620,5322,12
25,0622,4419,0819,8821,3922,3325,79

Osservando la tabella qui sopra, si vede che alcune barrette contengono meno di 20 grammi di proteine, mentre altre di più. Dai dati potrebbe sembrare che le etichette siano corrette, ma non è detto che tutti siano d'accordo. Il test statistico offre un modo affidabile per giungere a una conclusione, in modo che tutti prendano la stessa decisione sullo stesso set di dati. 

Verificare i dati

Per prima cosa, rispondiamo a questa domanda: il test t è un buon modo per valutare se le barrette energetiche contengono effettivamente 20 grammi di proteine? Di seguito abbiamo un elenco dei requisiti necessari per il test.

  • I valori dei dati sono indipendenti. Il contenuto proteico di una barretta non dipende da quello di un'altra. Un esempio di valori dipendenti sarebbe se tutte le barrette energetiche venissero da un unico lotto di produzione. Un campione proveniente da un unico lotto è rappresentativo di quel lotto e non delle barrette energetiche in genere.
  • I valori dei dati sono i grammi di proteine. Le misurazioni sono continue.
  • Si presuppone che le barrette energetiche vengano da un campione casuale semplice della popolazione di barrette energetiche a disposizione dei consumatori (es. siano un mix di tante barrette diverse).
  • Si presume che la popolazione da cui si raccoglie il campione abbia una distribuzione normale. In caso di campioni particolarmente ampi, questa supposizione può essere verificata.

Decidiamo che il test t è un metodo valido.

Prima di lanciarci nell'analisi, dovremmo dare una rapida occhiata ai dati. La figura che segue mostra un istogramma con le statistiche di riepilogo per le barrette energetiche.

Figura 1: Istogramma e statistiche di riepilogo relativi ai grammi di proteine delle barrette energetiche

Da una rapida occhiata all'istogramma, è evidente che non ci sono punti insoliti o outlier. I dati hanno una disposizione più o meno a campana, per cui l'assunto di una distribuzione normale sembra ragionevole.

Da una rapida occhiata alle statistiche, vediamo che la media è 21.40, quindi superiore a 20. Significa che questa media su un campione di 31 barrette può invalidare l'affermazione che ogni barretta contenga 20 grammi di proteine per l'intera media sconosciuta della popolazione, oppure no?

Come eseguire il test t a un campione

Per il calcolo del test t è necessario conoscere media, deviazione standard e dimensione campionaria. Tali dati sono mostrati nella sezione Riepilogo statistico della Figura 1 sopra.

Le statistiche vengono arrotondate fino a due cifre decimali. I software mostrano più cifre decimali, usandole nei calcoli. Tieni presente che la Tabella 1 mostra solo due cifre decimali, ma i dati effettivi utilizzati per calcolare il riepilogo statistico ne hanno di più.

Per iniziare calcoliamo la differenza tra la media del campione e 20:

$ 21{,}40-20\ =\ 1{,}40$

Poi, calcoliamo l'errore standard per la media. Il calcolo è:

Errore standard per la media = $ \frac{s}{\sqrt{n}}= \frac{2,54}{\sqrt{31}}=0,456 $

Il risultato corrisponde al valore nella Figura 1 qui sopra.

Ora abbiamo tutti gli elementi necessari per la statistica di test e possiamo procedere con il calcolo:

$ t =  \frac{\text{Differenza}}{\text{Errore standard}}= \frac{1{,}40}{0{,}456}=3{,}07 $

Per poter giungere a una conclusione, dovremo confrontare la statistica di test con un valore ripreso dalla distribuzione t. L'attività prevede quattro passaggi:

  1. Si calcola la statistica di test, che è 3,07.
  2. Si decide il rischio che si è disposti a correre nel dichiarare una differenza anche dove non ce n'è una. Nel caso dei dati relativi alle barrette energetiche, decidiamo di volerci assumere un rischio del 5 % nel dire che la media sconosciuta della popolazione è diversa da 20, anche se in realtà non è così. Nel linguaggio statistico, si imposta α = 0,05. È bene impostare il livello di rischio (α) prima di raccogliere i dati.
  3. Troviamo il valore della distribuzione t basandoci sulla decisione presa. Nel test t, per trovare questo valore dobbiamo conoscere i gradi di libertà. I gradi di libertà dipendono dalla dimensione campionaria. Nel caso dei dati relativi alle barrette energetiche:

    Gradi di libertà = $ n - 1 = 31 - 1 = 30 $

    Il valore critico di t con α = 0,05 e 30 gradi di libertà è +/- 2,043. Gran parte dei manuali di statistica fornisce delle tabelle di distribuzione pronte per la consultazione, ma le si può anche trovare online. In generale, comunque, se si utilizzano i software non è necessario usare tabelle stampate.

  4. Confrontiamo il valore della nostra statistica di test (3,07) con il valore t. Dal momento che 3,07 > 2,043, possiamo rifiutare l'ipotesi secondo cui la media dei grammi di proteine sia pari a 20. Giungiamo alla conclusione che le etichette sono errate e che la media della popolazione dei grammi di proteine è superiore a 20.

Dettagli statistici

Diamo un'occhiata ai dati sulle barrette energetiche e al test t a un campione utilizzando termini statistici.

La nostra ipotesi nulla è che la media della popolazione di riferimento sia uguale a 20. Tale ipotesi sarà quindi scritta come:

$ H_o:  \mathrm{\mu} = 20 $

L'ipotesi alternativa è che la media della popolazione di riferimento non sia uguale a 20. In tal caso, le etichette su cui c'è scritto 20 grammi di proteine sarebbero errate. La formula è la seguente:

$ H_a:  \mathrm{\mu} ≠ 20 $

Si tratta di un test bilaterale, in cui vogliamo scoprire se la media della popolazione è diversa da 20 grammi in entrambe le direzioni. Se possiamo rifiutare l'ipotesi nulla secondo cui la media è uguale a 20 grammi, allora giungiamo alla conclusione che le etichette delle barrette sono errate. Se invece non possiamo rifiutare l'ipotesi nulla, possiamo dire che le etichette delle barrette potrebbero essere corrette.

Calcoliamo la media per il campione e quindi la differenza rispetto alla media della popolazione (mu):

$  \overline{x} - \mathrm{\mu} $

Calcoliamo l'errore standard come segue:

$ \frac{s}{ \sqrt{n}} $

Nella formula la deviazione standard di un campione è indicata con s e la dimensione campionaria con n.  

Per la statistica di test si utilizza la formula seguente:

$​ \dfrac{\overline{x} - \mathrm{\mu}} {s / \sqrt{n}} $

A questo punto dobbiamo confrontare la statistica di test con il valore t corrispondente al valore alfa scelto e ai gradi di libertà dei nostri dati. Nel nostro esempio, impostiamo α = 0,05. I gradi di libertà (df) dipendono dalla dimensione campionaria e sono calcolati come segue:

$ df = n - 1 = 31 - 1 = 30 $

In statistica, il valore t con α = 0,05 e 30 gradi di libertà si scrive in questo modo:

$ t_{0{,}05;30} $

Il valore t per un test bilaterale con α = 0,05 e 30 gradi di libertà è +/- 2,042. Il confronto può dare due possibili risultati:

  • La statistica di test è meno estrema dei valori t critici, ovvero non è minore di -2,042 o non è maggiore di +2,042, per cui non si può rifiutare l'ipotesi nulla secondo cui la media sia uguale al valore specificato. Nel nostro esempio, non possiamo giungere alla conclusione che le etichette delle barrette energetiche debbano essere cambiate.
  • La statistica di test è più estrema dei valori t critici, ovvero è minore di -2,042 o è maggiore di +2,042, per cui si può rifiutare l'ipotesi nulla secondo cui la media sia uguale al valore specificato. Nel nostro esempio, possiamo concludere che bisogna aggiornare le etichette o migliorare il processo di produzione per realizzare barrette contenenti in media 20 grammi di proteine.

Test per la verifica della normalità

L'assunzione della normalità è molto più importante quando si ha a che fare con dimensioni campionarie piccole piuttosto che grandi.

Le distribuzioni normali sono simmetriche, quindi “pari” da entrambi i lati della linea mediana, e non presentano valori estremi o outlier. Queste due caratteristiche della distribuzione normale possono essere verificate tramite grafici. Prima, abbiamo deciso che i dati relativi alle barrette energetiche erano “abbastanza vicini” alla normale da poterli inserire nell'assunzione di normalità. La figura che segue mostra un diagramma dei quantili normali per questi dati, che è a supporto della decisione presa.

Figura 4: Diagramma dei quantili normali dei dati sulle barrette energetiche

È inoltre possibile eseguire un test formale per la verifica della normalità tramite software. La figura seguente mostra i risultati di un test per la verifica della normalità effettuato con il software JMP, da cui si deduce che non si può rifiutare l'ipotesi di una distribuzione normale. 

Figura 5: Test per la verifica della normalità tramite software JMP

Possiamo quindi supporre che i dati sulle barrette energetiche abbiano una distribuzione normale.

E se i dati non fossero distribuiti normalmente?

Se la dimensione campionaria è molto piccola, è complicato effettuare la verifica di normalità. In tal caso, non rimane che affidarsi alla propria comprensione dei dati. Per esempio, per quanto riguarda i dati sulle barrette energetiche, l'azienda sa che la distribuzione sottostante dei grammi di proteine è normale. Anche in presenza di un campione molto piccolo, è probabile che l'azienda prosegua con il test t ipotizzando una distribuzione normale.

Cosa fare se sappiamo che le misurazioni di riferimento non hanno una distribuzione normale? E se la dimensione campionaria è grande e l'ipotesi di normalità della distribuzione viene rifiutata? In questo caso, è possibile ricorrere a un test non parametrico. Le analisi non parametriche non dipendono dall'assunto che i valori dei dati derivino da una distribuzione specifica. Per il test t a un campione, si può usare il test non parametrico dei ranghi con segno di Wilcoxon. 

Capire i p-value

Grazie alla rappresentazione visuale è possibile verificare se la statistica di test è un valore più estremo rispetto a un dato valore nella distribuzione. La figura che segue mostra una distribuzione t con 30 gradi di libertà.

Figura 6: Distribuzione t con 30 gradi di libertà e α = 0,05

Poiché il nostro è un test a due code e abbiamo stabilito che α = 0,05, la figura mostra che il valore di 2,042 “lascia fuori” il 5 % dei dati delle due code combinate.

La figura successiva mostra i risultati. Possiamo notare che la statistica di test è superiore al valore critico indicato. Si trova sufficientemente “in fondo alla coda” da poter rifiutare l'ipotesi che la media sia uguale a 20.

Figura 7: Rappresentazione dei risultati in una distribuzione t con 30 gradi di libertà

Mettere tutto insieme tramite software

In genere, i test t vengono effettuati tramite software. La figura che segue mostra i risultati del test t a un campione sui dati delle barrette energetiche, effettuato con il software JMP.  

Figura 8: Risultati del test t a un campione sui dati delle barrette energetiche tramite software JMP

Il software mostra il valore dell'ipotesi nulla pari a 20 e la deviazione standard e media dai dati. La statistica di test è 3.07. Il risultato corrisponde ai calcoli riportati sopra.

Il software mostra il risultato di un test bilaterale e di diversi test unilaterali. A noi interessa il test bilaterale. L'ipotesi nulla è che la media dei grammi di proteine sia pari a 20. L'ipotesi alternativa è che tale media sia diversa da 20.  Il software riporta un valore p di 0.0046 per il test bilaterale. In questo caso, il p-value descrive la probabilità di vedere una media campionaria di 21.4 o ancora più estrema, quando la media della popolazione sottostante è di 20: in altre parole, la probabilità di osservare una media campionaria diversa da 20 quanto o più di quella osservata nel nostro campione. Un p-value di 0.0046 significa che le probabilità che ciò possa verificarsi sono di 46 su 10 000. Pertanto, possiamo tranquillamente rifiutare l'ipotesi nulla che la media della popolazione sia pari a 20.