La distribuzione t
Che cos'è la distribuzione t?
La distribuzione t descrive le distanze standardizzate delle medie campionarie dalla media della popolazione quando non si conosce la deviazione standard della popolazione e le osservazioni derivano da una popolazione a distribuzione normale.
Distribuzione t e distribuzione t di Student sono la stessa cosa?
Sì.
Qual è la principale differenza tra le distribuzioni t e z?
La distribuzione z (o distribuzione normale standardizzata) prevede che si conosca la deviazione standard della popolazione. La distribuzione t è basata sulla deviazione standard del campione.
Confronto tra distribuzione t e distribuzione normale
La distribuzione t è simile a una distribuzione normale e ha una definizione matematica precisa. Anziché addentrarci in calcoli complessi, vediamo quali sono le utili proprietà della distribuzione t e perché è importante in fase di analisi.
- La distribuzione t ha una forma armoniosa come la distribuzione normale.
- La distribuzione t è simmetrica come la distribuzione normale. Se si immagina di piegarla a metà in corrispondenza della media, i due lati saranno identici.
- La distribuzione t ha una media di zero come la distribuzione normale standardizzata (o distribuzione z).
- La distribuzione normale prevede che si conosca la deviazione standard della popolazione, al contrario della distribuzione t.
- La distribuzione t viene definita dai gradi di libertà, che dipendono dalla dimensione campionaria.
- La distribuzione t è più utile quando le dimensioni campionarie sono ridotte, quando la deviazione standard della popolazione non è nota o nel caso in cui valgano entrambe le condizioni.
- Con l'aumento della dimensione campionaria, la distribuzione t è sempre più simile a una distribuzione normale.
Osserviamo il seguente grafico in cui tre distribuzioni t vengono confrontate con una distribuzione normale standardizzata:
Tutte le distribuzioni hanno una forma armoniosa, sono simmetriche e hanno una media pari a zero.
La forma della distribuzione t dipende dai gradi di libertà. Le curve con più gradi di libertà sono più alte e hanno code più sottili. Le tre distribuzioni t hanno code più “pesanti” rispetto alla distribuzione z.
È possibile osservare come le curve con più gradi di libertà tendano a somigliare alla distribuzione z. Se confrontiamo la curva rosa con un grado di libertà con la curva verde della distribuzione z, notiamo che la prima è più corta e ha code più spesse rispetto alla seconda. Mentre se confrontiamo la curva blu con 10 gradi di libertà con la curva verde della distribuzione z, notiamo che sono molto simili.
Una regola generale condivisa è che con una dimensione campionaria di almeno 30, è possibile utilizzare la distribuzione z al posto della distribuzione t. La Figura 2 di seguito mostra una distribuzione t con 30 gradi di libertà e una distribuzione z. Per distinguere le due curve, la distribuzione z è indicata da una linea verde tratteggiata. Tale somiglianza è una delle ragioni per cui la distribuzione z viene usata come metodo statistico al posto della distribuzione t quando le dimensioni campionarie sono sufficientemente ampie.
Utilizzare le code per test a ipotesi e distribuzione t
Quando si esegue un test t, si verifica se la statistica di test è un valore più estremo rispetto a quello atteso dalla distribuzione t.
Nel caso di un test a due code, vengono osservate entrambe le code della distribuzione. La Figura 3 di seguito mostra il processo decisionale associato a questo tipo di test. La curva è una distribuzione t con 21 gradi di libertà. Il valore della distribuzione t con α = 0,05/2 = 0,025 è 2,080. Il test a due code prevede di rifiutare l'ipotesi nulla se la statistica di test è superiore al valore assoluto del valore di riferimento. Se il valore della statistica di test si trova nella coda inferiore o in quella superiore, l'ipotesi nulla viene rifiutata. Se invece la statistica di test rientra tra le linee di riferimento, non è possibile rifiutare l'ipotesi nulla.
Nel caso di un test a a una coda, viene osservata una sola coda della distribuzione. Per esempio, in Figura 4 viene mostrato il processo decisionale associato a questo tipo di test. Anche stavolta, la curva è una distribuzione t con 21 gradi di libertà. Nel test a una coda, il valore della distribuzione t con α = 0,05 è 1,721. L'ipotesi viene rifiutata se la statistica di test è superiore al valore di riferimento. Se la statistica di test è al di sotto della linea di riferimento, non è possibile rifiutare l'ipotesi nulla.
Come utilizzare una tavola t
Per eseguire i calcoli dei t test, la maggior parte delle persone ricorre a un software. Tuttavia, in molti libri di statistica si trovano ancora le tabelle t, per cui può essere utile capire come funzionano. I passaggi successivi spiegano come usare una classica tabella t.
- Verificare se la tabella si riferisce a un test a una o due code. Quindi, decidere quale dei due si desidera svolgere. Le colonne delle tabelle t indicano diversi valori di alfa.
Se la tabella di cui si dispone è valida per un test a una coda, può essere utilizzata anche per un test a due code. Se per il test a due code α = 0,05 e la tabella si riferisce a un test a una coda, prendere come riferimento la colonna relativa ad α = 0,025. - Individuare i gradi di libertà dei dati. Le righe della tabella t corrispondono ai diversi gradi di libertà. La maggior parte delle tabelle presentano fino a un massimo di 30 gradi di libertà, perché si presume che per dimensioni campionarie maggiori venga utilizzata una distribuzione z.
- Trovare la cella della tabella in cui si intersecano il valore di α e i gradi di libertà. Il valore trovato è il valore della distribuzione t. Confrontare la statistica con il valore della distribuzione t e trarre le opportune conclusioni.