Test t a due campioni
In che cosa consiste un test t a due campioni?
Il test t a due campioni (noto anche come test t con campioni indipendenti) è un metodo utilizzato per verificare se le medie sconosciute della popolazione di due gruppi siano uguali o meno.
Cioè è come un test A/B?
Sì, un test t a due campioni viene usato per analizzare i risultati dei test A/B.
Quando ha senso usare questo test?
Il test si può applicare a valori di dati indipendenti, campionati a caso da due popolazioni normali, ove i due gruppi indipendenti abbiano varianze uguali.
E se ci sono più di due gruppi?
In questo caso è meglio usare un metodo di confronto multiplo, come per esempio l'analisi della varianza (ANOVA). Altri metodi di confronto multiplo includono il test di Tukey-Kramer su tutte le differenze appaiate; l'analisi delle medie (ANOM), che confronta le medie del gruppo con la media generale; o il test di Dunnett, che confronta la media di ogni gruppo con una media di controllo.
E se le varianze tra i due gruppi non fossero uguali?
Si può comunque usare il test t a due campioni, inserendo una diversa stima per la deviazione standard.
E se i dati non fossero distribuiti normalmente?
In caso di dimensioni campionarie molto piccole, potrebbe non essere possibile effettuare la verifica di normalità. In quel caso non si può fare altro che affidarsi alla propria comprensione dei dati. Se non si può assumere con certezza la normalità di un'ipotesi, si può comunque eseguire un test non parametrico.
Usare il test t a due campioni
Le sezioni seguenti illustrano ciò che serve per il test e spiegano come verificare i dati, eseguire il test e capirne i dettagli statistici.
Che cosa serve?
Per il test t a due campioni sono necessarie due variabili. Una definisce i due gruppi, mentre l'altra misura l'elemento di interesse.
L'idea, o l'ipotesi, è che le medie delle popolazioni comprese nei due gruppi siano diverse. Ecco un paio di esempi:
- Poniamo di avere studenti di madrelingua inglese e studenti che l'hanno appreso come seconda lingua. Tutti gli studenti svolgono un test di lettura. I due gruppi sono composti rispettivamente da madrelingua e non madrelingua. Le misure di riferimento sono i punteggi dei test. L'ipotesi è che i punteggi medi dei test delle popolazioni sottostanti dei due gruppi siano diversi. Vogliamo sapere se il punteggio medio della popolazione di madrelingua è diverso da quello della popolazione che ha appreso l'inglese come seconda lingua.
- Misuriamo i grammi di proteine delle barrette energetiche di due diverse marche, che costituiscono i due gruppi del test. Le misure di riferimento sono i grammi di proteine in ciascun tipo di barretta energetica. L'idea è che le medie dei grammi di proteine per le popolazioni sottostanti nei due gruppi possano essere diverse. Vogliamo sapere se ci sono evidenze che dimostrano la differenza tra le medie dei grammi di proteine delle due marche di barrette energetiche.
Assunti del test t a due campioni
Al fine di condurre un test valido:
- I valori dei dati devono essere indipendenti. Le misure di un'osservazione non devono influire sulle misure di altre osservazioni.
- I dati di ogni gruppo devono essere ottenuti da un campione casuale della popolazione.
- I dati di ogni gruppo devono avere una distribuzione normale.
- I valori dei dati devono essere continui.
- Le varianze dei due gruppi indipendenti devono essere uguali.
Per gruppi di dati molto piccoli, può risultare complicato verificare questi requisiti. Di seguito, vedremo come eseguire questa verifica tramite software e cosa fare se i requisiti non vengono soddisfatti.
Esempio di test t a due campioni
Un modo per valutare lo stato di forma di una persona è quello di misurarne la percentuale di grasso corporeo. Le percentuali medie del grasso corporeo di un individuo variano con l'età, ma, secondo alcune linee guida, dovrebbero rientrare nel 15-20 % per gli uomini e nel 20-25 % per le donne.
I nostri dati campione vengono da un gruppo di uomini e donne che si sono allenati in palestra tre volte a settimana per un anno. Dopodiché, il loro allenatore ne ha misurato il grasso corporeo. I dati sono riportati nella tabella che segue.
Tabella 1: Dati sulle percentuali di grasso corporeo raggruppati per genere
Gruppo | Percentuali di grasso corporeo | ||||
Uomini | 13,3 | 6,0 | 20,0 | 8,0 | 14,0 |
19,0 | 18,0 | 25,0 | 16,0 | 24,0 | |
15,0 | 1.0 | 15,0 | |||
Donne | 22,0 | 16,0 | 21,7 | 21,0 | 30,0 |
26,0 | 12,0 | 23,2 | 28,0 | 23,0 |
Sovrapposizioni tra le misurazioni effettuate su uomini e donne del campione sono chiaramente visibili, così come alcune differenze. A una semplice osservazione dei dati, è complicato trarre conclusioni definitive sull'ipotesi che le popolazioni sottostanti di uomini e donne che frequentano la palestra abbiano in media la stessa percentuale di grasso corporeo. È questa l'importanza dei test statistici: offrono un modo comune e statisticamente valido per giungere a una conclusione, in modo che tutti prendano la stessa decisione su un determinato set di dati.
Verificare i dati
Per prima cosa, rispondiamo a questa domanda: il test t a due campioni è un buon modo per valutare la differenza di grasso corporeo tra uomini e donne?
- I valori dei dati sono indipendenti, ossia il livello di grasso corporeo di una persona non dipende da quello di un'altra.
- Ipotizziamo che le persone esaminate rappresentino un campione casuale semplice della popolazione dei membri di una palestra.
- Assumiamo che i dati abbiano una distribuzione normale e di poterlo verificare.
- I valori dei dati sono le misurazioni della percentuale di grasso corporeo e le misurazioni sono continue.
- Assumiamo l'uguaglianza tra le varianze di uomini e donne e di poterla verificare.
Prima di lanciarci nell'analisi, dovremmo sempre dare una rapida occhiata ai dati. La figura che segue mostra degli istogrammi con le statistiche di riepilogo per uomini e donne.
I due istogrammi sono sulla stessa scala. Da una rapida occhiata, è evidente che non ci sono punti molto insoliti, o outlier. I dati hanno una disposizione più o meno a campana, per cui l'idea iniziale di una distribuzione normale sembra ragionevole.
Dall'analisi del riepilogo statistico emerge che le deviazioni standard sono simili. L'idea di varianze uguali è supportata. Per verificarla, si può usare anche un test delle varianze.
Sulla base di queste osservazioni, il test t a due campioni sembra essere un metodo appropriato per testare la differenza delle medie.
Come eseguire il test t a due campioni
È necessario conoscere media, deviazione standard e dimensione campionaria di ciascun gruppo, mostrati nella seguente tabella.
Tabella 2: Media, deviazione standard e statistiche di dimensione campionaria raggruppate per genere
Gruppo | Dimensione campionaria (n) | Media (x barrato) | Deviazione standard (s) |
Donne | 10 | 22,29 | 5,32 |
Uomini | 13 | 14,95 | 6,84 |
Senza l'ausilio di alcun test, possiamo osservare che le medie per uomini e donne all'interno dei campioni sono diverse. Ma di quanto? Le medie sono “abbastanza simili” da consentirci di concludere che il grasso corporeo medio è lo stesso anche per la popolazione più ampia di uomini e donne che frequentano le palestre? O la differenza è tale da impedirci di trarre questa conclusione?
I principi base del test t a due campioni vengono illustrati più a fondo nella sezione Dettagli statistici che segue, ma prima vediamone tutti i passaggi dall'inizio alla fine. Per prima cosa bisogna calcolare la statistica di test. Il primo passaggio del calcolo consiste nel trovare la differenza tra le due medie:
$ 22,29 - 14,95 = 7,34 $
La differenza tra i campioni fornisce una stima della differenza tra le medie delle popolazioni dei due gruppi.
A questo punto, calcoliamo la deviazione standard aggregata. Così facendo, otteniamo una stima combinata della deviazione standard generale. La stima si adegua alle diverse dimensioni dei gruppi. Per prima cosa calcoliamo la varianza aggregata:
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
$ s_p^2 = \frac{((10 - 1)5,32^2) + ((13 - 1)6,84^2)}{(10 + 13 - 2)} $
$ = \frac{(9\times28,30) + (12\times46,82)}{21} $
$ = \frac{(254,7 + 561,85)}{21} $
$ =\frac{816,55}{21} = 38,88 $
Quindi calcoliamo la radice quadrata della varianza aggregata per ottenere la deviazione standard aggregata:
$ \sqrt{38,88} = 6,24 $
Ora abbiamo tutti gli elementi necessari per la statistica di test: la differenza delle medie, la deviazione standard aggregata e le dimensioni campionarie. Possiamo quindi procedere con il calcolo:
$ t = \frac{\text{differenza delle medie dei gruppi}}{\text{errore standard della differenza}} = \frac{7,34}{(6,24\times \sqrt{(1/10 + 1/13)})} = \frac{7,34}{2,62} = 2,80 $
Per valutare la differenza tra le medie e giungere a una decisione riguardo ai programmi della palestra, dovremo confrontare la statistica di test con un valore teorico ripreso dalla distribuzione t. L'attività prevede quattro passaggi:
- Si decide il rischio che si è disposti a correre nel dichiarare una differenza significativa. Nel caso dei dati relativi al grasso corporeo, decidiamo di volerci assumere un rischio del 5 % nel dire che le medie sconosciute della popolazione per gli uomini e per le donne non siano uguali quando in realtà lo sono. Nel linguaggio statistico, il livello di significatività, contrassegnato da α, è impostato a 0,05. È bene prendere questo tipo di decisione prima di raccogliere i dati e di calcolare la statistica di test.
- A questo punto si può procedere con il calcolo. La nostra statistica di test è 2,80.
- Troviamo il valore teorico della distribuzione t sulla base dell'ipotesi nulla secondo cui le medie degli uomini e delle donne sono uguali. Gran parte dei manuali di statistica fornisce delle tabelle di distribuzione t pronte per la consultazione, ma le si può anche trovare online. In generale, se si utilizzano i software non è necessario usare tabelle stampate.
Per trovare il valore risultante, avremo bisogno del livello di significatività (α = 0,05) e dei gradi di libertà. I gradi di libertà (df) dipendono dalle dimensioni campionarie dei due gruppi. Nel caso dei dati relativi al grasso corporeo, abbiamo:
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
Il valore t con α = 0,05 e 21 gradi di libertà è pari a 2,080. - Confrontiamo il valore della nostra statistica di test (2,80) con il valore t. Dal momento che 2,80 > 2,080, possiamo rifiutare l'ipotesi nulla secondo cui le medie del grasso corporeo di uomini e donne sarebbero uguali e concludere che c'è una differenza nel grasso corporeo della popolazione.
Dettagli statistici
Diamo un'occhiata ai dati sul grasso corporeo e al test t a due campioni utilizzando termini statistici.
La nostra ipotesi nulla è che le medie della popolazione compresa siano uguali. Tale ipotesi sarà quindi scritta come:
$ H_o: \mathrm{\mu_1} =\mathrm{\mu_2} $
L'ipotesi alternativa è che le medie non siano uguali. La formula è la seguente:
$ H_o: \mathrm{\mu_1} \neq \mathrm{\mu_2} $
Calcoliamo la media per ciascun gruppo e poi calcoliamo la differenza tra le due medie. La formula è la seguente:
$\overline{x_1} - \overline{x_2} $
Calcoliamo la deviazione standard aggregata. Così facendo assumiamo che le varianze della popolazione compresa siano uguali. La formula della varianza aggregata è la seguente:
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
Nella formula la dimensione campionaria del primo gruppo è indicata con n1 e quella del secondo gruppo con n2. Le deviazioni standard dei due gruppi sono s1 e s2. Questa stima consente ai due gruppi di avere diversi numeri di osservazioni. La deviazione standard aggregata è la radice quadrata della varianza e si indica con sp.
E se i due gruppi hanno la stessa dimensione campionaria? In questo caso, la stima aggregata della varianza è semplicemente la media delle varianze dei due gruppi:
$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $
La statistica di test è calcolata come segue:
$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $
Al numeratore della statistica di test è presente la differenza tra le medie dei due gruppi. Si tratta di una stima della differenza tra le due medie sconosciute della popolazione. Al denominatore si ha una stima dell'errore standard della differenza tra le due medie sconosciute della popolazione.
Dettaglio tecnico: per una singola media, l'errore standard è $ s/\sqrt{n} $ . La formula qui sopra estende il concetto a due gruppi che impiegano una stima aggregata per il valore s (deviazione standard) e che possono avere dimensioni diverse.
A questo punto dobbiamo confrontare la statistica di test con il valore t corrispondente al valore alfa scelto e ai gradi di libertà dei nostri dati. Tornando all'esempio dei dati sul grasso corporeo, impostiamo α = 0,05. I gradi di libertà (df) dipendono dalla dimensione dei gruppi e sono calcolati come segue:
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
Nella formula, la dimensione campionaria del primo gruppo è indicata con n1 e quella del secondo gruppo con n2. In statistica, il valore t con α = 0,05 e 30 gradi di libertà si scrive in questo modo:
$ t_{0{,}05;21} $
Il valore t con α = 0,05 e 21 gradi di libertà è pari a 2,080. Il confronto può dare due possibili risultati:
- La statistica di test è inferiore al valore t, per cui non si può rifiutare l'ipotesi che le medie siano uguali e si conclude che i dati supportano l'ipotesi secondo cui uomini e donne avrebbero lo stesso grasso corporeo medio.
- La statistica di test è superiore al valore t, per cui si può rifiutare l'ipotesi che le medie siano uguali e non si può affermare che uomini e donne abbiano lo stesso grasso corporeo medio.
Test t con varianze ineguali
Se le varianze dei due gruppi non sono uguali, non è possibile usare la stima aggregata della deviazione standard. Al contrario, dovremo usare l'errore standard per ogni gruppo separatamente. La statistica di test è:
$ t = \frac{ (\overline{x_1} -\overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $
Il numeratore della statistica di test è lo stesso, pari alla differenza tra le medie dei due gruppi. Il denominatore è una stima dell'errore standard generale nella differenza tra medie, basato sull'errore standard distinto per ciascun gruppo.
Il calcolo dei gradi di libertà per il valore t è più complesso nel caso di varianze ineguali che di varianze uguali e in genere viene effettuato tramite pacchetti di software statistici. La cosa fondamentale da ricordare è che, se non è possibile usare la stima aggregata della deviazione standard, allora non si può nemmeno usare la formula semplice per il calcolo dei gradi di libertà.
Test per la verifica della normalità
L'assunzione della normalità è molto più importante quando si ha a che fare con dimensioni campionarie piccole piuttosto che grandi.
Le distribuzioni normali sono simmetriche, quindi “pari” da entrambi i lati della linea mediana, e non presentano valori estremi o outlier. Queste due caratteristiche di distribuzione possono essere verificate tramite grafici. Prima, abbiamo deciso che i dati relativi al grasso corporeo erano “abbastanza vicini” alla norma da poterli inserire nell'assunzione di normalità. La figura che segue mostra un diagramma dei quantili normali per uomini e donne, a supporto della decisione presa.
È inoltre possibile eseguire un test formale per la verifica della normalità tramite software. La figura qui sopra mostra i risultati di un test per la verifica della normalità effettuato con il software JMP. Eseguiamo test separati per ogni gruppo. Sia il test sugli uomini che il test sulle donne mostrano che non è possibile rifiutare l'ipotesi di una distribuzione normale. Possiamo quindi supporre che i dati sul grasso corporeo negli uomini e nelle donne abbiano una distribuzione normale.
Testare le varianze ineguali
Testare le varianze ineguali è complicato. Non mostreremo i calcoli nel dettaglio, ma i risultati del software JMP. La figura sottostante illustra i risultati di un test delle varianze ineguali per i dati sul grasso corporeo.
Senza entrare nei dettagli dei diversi tipi di test per varianze ineguali, in questo caso useremo il test F. Prima di procedere, decidiamo di accettare un rischio del 10 % di concludere che le varianze siano uguali quando in realtà non lo sono. Pertanto, avremo α = 0,10.
Come gran parte dei software statistici, JMP mostra il p-value di un test, cioè la probabilità di trovare un valore della statistica di test più estremo di quello osservato. Il calcolo è molto difficile da eseguire manualmente. Nell'immagine sopra, con una statistica di test F di 1,654, il p-value è 0,4561. Dal momento che è superiore al nostro valore α (0,4561 > 0,10) non si può rifiutare l'ipotesi che le varianze siano uguali. In termini pratici, possiamo procedere al test t a due campioni partendo dal presupposto che ci siano varianze uguali per entrambi i gruppi.
Capire i p-value
Grazie alla rappresentazione visuale è possibile verificare se la statistica di test è un valore estremo nella distribuzione. La figura che segue mostra una distribuzione t con 21 gradi di libertà.
Poiché il test è bilaterale e α = 0,05, la figura mostra che il valore 2,080 “lascia fuori” il 2,5 % dei dati in entrambe le code. Nel complesso, solo il 5 % dei dati si trova in posizione esterna a 2,080 nelle code. Poiché la statistica di test di 2,80 si trova oltre il punto limite, rifiutiamo l'ipotesi nulla dell'uguaglianza delle medie.
Mettere tutto insieme tramite software
La figura che segue mostra i risultati del test t a due campioni sui dati relativi al grasso corporeo, effettuato con il software JMP.
I risultati del test t a due campioni che ipotizza varianze uguali sono gli stessi dei nostri calcoli di prima. La statistica di test è 2,79996. Il software mostra il risultato di un test bilaterale e di diversi test unilaterali, ma a noi interessa quello bilaterale (Prob > |t|). L'ipotesi nulla è che le medie del grasso corporeo di uomini e donne siano uguali. L'ipotesi alternativa è che invece non lo siano. I test unilaterali servono per verificare le ipotesi alternative unilaterali, ad esempio, l'ipotesi nulla secondo cui la media del grasso corporeo degli uomini sia inferiore a quella delle donne.
Possiamo rifiutare l'ipotesi secondo cui le medie del grasso corporeo dei due gruppi sarebbero uguali e concludere che c'è una differenza nel grasso corporeo della popolazione. Il software riporta un p-value di 0,0107. Decidiamo di assumerci un rischio del 5 % di concludere che le due medie siano diverse, quando non lo sono. È importante prendere questa decisione prima di svolgere il test statistico.
La figura mostra anche i risultati del test t che non ipotizza varianze uguali. Questo test non usa la stima aggregata della deviazione standard. Come menzionato in precedenza, il test prevede una formula complessa per i gradi di libertà, che, come vediamo, sono 20,9888. Il software riporta un p-value di 0,0086. Di nuovo, avendo preso la decisione di assumerci un rischio del 5 %, possiamo rifiutare l'ipotesi nulla secondo cui le medie del grasso corporeo di uomini e donne sarebbero uguali.
Altri argomenti
E se ci sono più di due gruppi?
Con più di due gruppi indipendenti non è possibile utilizzare il test t a due campioni. In questo caso è meglio usare un metodo di confronto multiplo, come l'analisi della varianza (ANOVA). Altri metodi di confronto multiplo includono il test di Tukey-Kramer su tutte le differenze appaiate; l'analisi delle medie (ANOM), che confronta le medie del gruppo con la media generale; o il test di Dunnett, che confronta la media di ogni gruppo con una media di controllo.
E se i dati non fossero distribuiti normalmente?
Se la dimensione campionaria è molto piccola, potrebbe risultare complicato effettuare la verifica di normalità. In tal caso, non rimane che affidarsi alla propria comprensione dei dati. Per esempio, per quando riguarda i dati sul grasso corporeo, un allenatore sa che la distribuzione sottostante è normale. Anche in presenza di un campione molto piccolo, è probabile che l'allenatore prosegua con il test t ipotizzando una distribuzione normale.
Cosa fare se sappiamo che le misurazioni di riferimento non hanno una distribuzione normale? E se la dimensione campionaria è grande e l'ipotesi di normalità della distribuzione viene rifiutata? In questo caso, è possibile ricorrere alle analisi non parametriche. Queste analisi non dipendono dall'assunto che i valori dei dati derivino da una distribuzione specifica. Per il test t a due campioni, può essere utilizzato il test delle somme dei ranghi di Wilcoxon.