Test della bontà di adattamento del chi-quadrato

In cosa consiste il test della bontà di adattamento del chi-quadrato?

Il test della bontà di adattamento del chi-quadrato è un'ipotesi statistica usata per determinare la possibilità che una variabile derivi da una specifica distribuzione o meno. In genere viene usato per valutare se i dati di esempio siano rappresentativi dell'intera popolazione.

Quando ha senso usare questo test?

Il test della bontà di adattamento del chi-quadrato ha senso quando si hanno determinati conteggi di valori per una variabile categorica.

In sostanza funziona come il test del chi-quadrato di Pearson?

Sì.

Usare il test della bontà di adattamento del chi-quadrato

Il test della bontà di adattamento del chi-quadrato serve a verificare che i dati di esempio provengano da una determinata distribuzione teorica. Si parte con un set di valori di dati e con un'idea di come questi valori sono distribuiti. Il test ci consente di decidere se i valori dei dati danno “sufficiente” conferma alla nostra idea o se invece è il caso di rimetterla in discussione.

Che cosa serve?

Per effettuare il test della bontà di adattamento è necessario disporre di una variabile e di un'idea o ipotesi di come tale variabile è distribuita. Ecco un paio di esempi:

  • Ci sono dei sacchetti di caramelle con cinque diversi gusti in ognuna. I sacchetti dovrebbero contenere uno stesso numero di caramelle per ogni sapore. L'idea è verificare che le proporzioni tra i cinque gusti in ogni sacchetto siano le stesse.
  • In un gruppo sportivo per bambini, vogliamo che i bambini più esperti, mediamente esperti o meno esperti siano distribuiti equamente in ogni squadra. Poniamo di sapere che il 20 % dei giocatori ha molta esperienza, che il 65 % è mediamente esperto e che il 15 % non ha mai giocato prima. L'idea da testare è che in ogni squadra la proporzione di bambini più o meno esperti sia pari a quella dell'intera divisione.

Per applicare il test della bontà di adattamento avremo bisogno di:

  • Valori di dati che siano un campione casuale semplice dell'intera popolazione.
  • Dati categorici o nominali. Il test della bontà di adattamento del chi-quadrato non è adatto ai dati continui.
  • Un set di dati grande abbastanza da dare almeno cinque valori attesi per ognuna delle categorie di dati in analisi. 

Esempio di test della bontà di adattamento del chi-quadrato

Prendiamo l'esempio dei sacchetti di caramelle. Procuriamoci un campione casuale di dieci sacchetti. Ogni sacchetto contiene 100 caramelle e cinque gusti. La nostra ipotesi è che le proporzioni di ognuno dei gusti in ogni sacchetto siano le stesse.

Per prima cosa, rispondiamo a questa domanda: il test della bontà di adattamento del chi-quadrato è il modo più appropriato per valutare la distribuzione dei gusti nei sacchetti di caramelle?

  • Abbiamo un campione casuale di 10 sacchetti di caramelle. Il requisito è soddisfatto.
  • La variabile categorica sono i gusti delle caramelle. Abbiamo il numero di caramelle per ogni gusto in tutti e 10 i sacchetti. Il requisito è soddisfatto.
  • Ogni sacchetto contiene 100 caramelle e cinque gusti. Il risultato atteso è che ci sia uno stesso numero di caramelle per ogni gusto. Pertanto, dovrebbero esserci 100 / 5 = 20 caramelle per ogni gusto in ogni sacchetto. Considerati i 10 sacchetti del nostro esempio, ci aspettiamo 10 x 20 = 200 caramelle per ogni gusto. Anche il requisito dei cinque valori attesi per ogni categoria è soddisfatto.

In base alle risposte date sopra, possiamo dire che sì, il test della bontà di adattamento del chi-quadrato è un modo appropriato per valutare la distribuzione dei gusti nei sacchetti di caramelle. 

La figura 1 mostra il conteggio complessivo dei gusti in tutti e 10 i sacchetti di caramelle.

Figura 1: grafico a barre del numero di gusti di caramelle in tutti e 10 i sacchetti

Senza bisogno di grandi statistiche, è subito chiaro che il numero di caramelle di ogni gusto non è lo stesso: per alcuni gusti ci sono meno di 200 caramelle, per altri di più. Ma quanto varia la proporzione tra un gusto e l'altro? Il numero di caramelle per ogni gusto è “sufficientemente vicino” al risultato atteso da concludere che nella maggior parte dei sacchetti possa esserci lo stesso numero di caramelle per ogni gusto o si tratta di valori troppo diversi per trarre queste conclusioni? In altre parole, i valori dei nostri dati danno “sufficiente” conferma all'idea che in ogni sacchetto ci sia uno stesso numero di caramelle per ogni gusto oppure no?

Per deciderlo, dobbiamo individuare la differenza tra ciò che abbiamo e il risultato atteso. Poi, per dare ai gusti con meno pezzi del previsto la stessa importanza dei gusti con più pezzi, facciamo il quadrato della differenza. A questo punto, dividiamo il quadrato per il conteggio atteso e sommiamo i due valori. In questo modo si ottiene la statistica di test.

Per comprendere meglio questi passaggi, facciamo un esempio numerico.

Per prima cosa, vediamo quale dovrebbe essere il risultato se in ogni sacchetto ci fosse lo stesso numero di caramelle per ogni gusto.  Prima abbiamo calcolato 200 caramelle per 10 sacchetti.

Tabella 1: Confronto tra il numero di caramelle effettivo e quello atteso per ogni gusto

GustoNumero di caramelle (10 sacchetti)Numero di caramelle atteso
Mela180200
Lime250200
Ciliegia120200
Ciliegia225200
Uva225200

Ora vediamo la differenza tra i risultati attesi e quanto effettivamente osservato nei dati. Tale differenza è mostrata nell'ultima colonna della Tabella 2:

Tabella 2: Differenza tra risultati osservati e attesi in base al gusto

GustoNumero di caramelle (10 sacchetti)Numero di caramelle attesoOsservato-atteso
Mela180200180-200 = -20
Lime250200250-200 = 50
Ciliegia120200120-200 = -80
Arancione225200225-200 = 25
Uva225200225-200 = 25

Alcune differenze sono positive, altre negative. Sommandole, si otterrebbe zero. Al contrario, bisogna elevarle al quadrato. In questo modo i gusti con meno caramelle del previsto avranno la stessa importanza di quelli con più caramelle del previsto.

Tabella 3: Calcolo della discrepanza quadratica dei risultati osservati e attesi per ogni gusto

GustoNumero di caramelle (10 sacchetti)Numero di caramelle attesoOsservato-attesoDiscrepanza quadratica
Mela180200180-200 = -20400
Lime250200250-200 = 502500
Ciliegia120200120-200 = -806400
Arancione225200225-200 = 25625
Uva225200225-200 = 25625

Dopodiché, la discrepanza quadratica andrà divisa per il numero atteso:

Tabella 4: Calcolo della discrepanza quadratica divisa per il numero di caramelle per gusto atteso

GustoNumero di caramelle (10 sacchetti)Numero di caramelle attesoOsservato-attesoDiscrepanza quadraticaDiscrepanza quadratica/numero atteso
Mela180200180-200 = -20400400 / 200 = 2
Lime250200250-200 = 5025002500 / 200 = 12.5
Ciliegia120200120-200 = -8064006400 / 200 = 32
Arancione225200225-200 = 25625625 / 200 = 3.125
Uva225200225-200 = 25625625 / 200 = 3.125

Infine, sommiamo i numeri ottenuti nell'ultima colonna per ottenere la nostra statistica di test:

$ 2 + 12.5 + 32 + 3.125 + 3.125 = 52.75 $

Per giungere a una conclusione, possiamo confrontare la statistica di test con il valore critico della distribuzione del chi-quadrato. L'attività prevede quattro passaggi:

  1. Prima di tutto dobbiamo stabilire quale rischio siamo disposti a correre di trarre conclusioni errate in base alle nostre osservazioni campione. Per quanto riguarda i dati delle caramelle, prima di raccogliere i dati decidiamo di voler correre un rischio del 5 % di concludere che il conteggio dei gusti in ogni sacchetto nell'intera popolazione non sia uguale quando in realtà lo è. Nel linguaggio statistico, si imposta il livello di significatività α a 0.05.
  2. A questo punto si può procedere con il calcolo. La nostra statistica di test è 52.75.
  3. Il valore teorico della distribuzione del chi-quadrato si trova basandosi sul livello di significatività. Tale valore teorico è quello che ci si aspetterebbe se i sacchetti di caramelle contenessero effettivamente lo stesso numero di caramelle per ogni gusto.

    Oltre al livello di significatività, per trovare questo valore dobbiamo conoscere anche i gradi di libertà. Per il test della bontà di adattamento, questo numero deve essere inferiore di un'unità al numero di categorie. Avendo cinque gusti di caramelle, avremo 5 – 1 = 4 gradi di libertà.

    Il valore del chi-quadrato con α = 0.05 e 4 gradi di libertà è pari a 9.488.
  4. Confrontiamo il valore della nostra statistica di test (52.75) con quello del chi-quadrato. Dal momento che 52.75 > 9.488, possiamo rifiutare l'ipotesi nulla secondo cui la proporzione tra i gusti di caramelle sarebbe la stessa.

 

La conclusione pratica è che i sacchetti di caramelle dell'intera popolazione non contengono la stessa quantità di pezzi per i cinque gusti. Il risultato è evidente già dai dati originali. Chi preferisce il lime è fortunato, perché ci sono più caramelle a quel gusto che del resto. Chi invece ama la ciliegia rimarrà deluso, perché ci sono meno caramelle alla ciliegia del previsto.

Capire i risultati

Usiamo qualche grafico per capire il test e i risultati.

Un semplice grafico a barre dei dati mostra il conteggio osservato per i diversi gusti:

 

Figura 2: Grafico a barre del conteggio osservato per i diversi gusti

Un altro grafico a barre mostra il conteggio atteso su 200 caramelle per gusto. In questo modo si vede che aspetto avrebbe il grafico se in ogni sacchetto ci fosse la stessa quantità di caramelle per ogni gusto.

Figura 3: Grafico a barre del conteggio atteso per ogni gusto

La comparazione tra i due grafici presentata di seguito mostra il numero di caramelle effettivamente osservato in blu, mentre le barre arancioni indicano il numero di caramelle attese. È evidente che alcuni gusti hanno più caramelle del previsto, altri meno. 

Figura 4: Grafico a barre che confronta il conteggio di caramelle osservato e atteso

Il test statistico è un modo per quantificare la differenza. I dati rilevati dal nostro campione sono “abbastanza vicini” al risultato atteso da poter concludere che la proporzione tra i gusti nei sacchetti della popolazione in esame sia uguale oppure no? Dai dati rilevati finora, la maggior parte della gente sosterrebbe che tali dati non sono “abbastanza vicini” anche senza dover effettuare un test statistico.

E se invece i dati apparissero come nell'esempio in Figura 5? Le barre viola mostrano il conteggio osservato, quelle arancioni il conteggio atteso. C'è chi direbbe che i dati sono “abbastanza vicini”, ma anche chi sosterrebbe il contrario. Il test statistico offre un modo comune per giungere a una conclusione, in modo che tutti prendano la stessa decisione su un determinato set di dati. 

Figura 5: Grafico a barre che confronta i valori attesi ed effettivi usando un altro set di dati campione

Dettagli statistici

Diamo un'occhiata ai dati sulle caramelle e al test della bontà di adattamento del chi-quadrato in termini statistici. Tale test è noto anche con il nome di test del chi-quadrato di Pearson.

La nostra ipotesi nulla è che la proporzione tra i gusti in ogni sacchetto di caramelle sia la stessa. I sapori disponibili sono cinque. Tale ipotesi sarà quindi scritta come:

H0 : p1 = p2 = p3 = p4 = p5

La formula usa p in riferimento alla proporzione di ogni gusto. Se ogni sacchetto da 100 pezzi contenesse uno stesso numero di caramelle per ognuno dei cinque gusti, vorrebbe dire che ci sarebbero 20 caramelle per ogni gusto. La proporzione per ogni gusto sarebbe quindi di 20 / 100 = 0.2.

L'ipotesi alternativa è che almeno una delle proporzioni sia diversa dalle altre. La formula è la seguente:

Ha : al​ meno​ un​ pi​ non uguale​

In alcuni casi, non andiamo a verificare la presenza di proporzioni equivalenti. Consideriamo di nuovo l'esempio delle squadre di bambini nella parte alta della pagina. Prendendo quello come esempio, le ipotesi nulla e alternativa saranno:

H0 : p1 = 0.2, p2 = 0.65, p3 = 0.15

Ha : al​ meno​ un​ pi​ non​ uguale​ al​ valore​ atteso

A differenza delle ipotesi che coinvolgono un parametro su una popolazione singola, non possiamo usare una semplice formula, ma dobbiamo usare anche parole e simboli.

Abbiamo calcolato la statistica di test usando la formula che segue:

$ \sum^n_{i=1} \frac{(O_i-E_i)^2}{E_i} $

Nella formula riportata sopra, abbiamo n gruppi. Il simbolo $ \sum $ indica la somma dei calcoli per ogni gruppo. Per ognuno dovremo compiere gli stessi passaggi dell'esempio delle caramelle. La formula riporta Oi  come valore osservato ed Ei  come valore atteso di un dato gruppo.

A questo punto possiamo confrontare la statistica di test con un valore di chi-quadrato con il livello di significatività desiderato (chiamato anche livello alfa) e con i gradi di libertà dei nostri dati. Riprendendo l'esempio delle caramelle, impostiamo α = 0.05 con quattro gradi di libertà. Pertanto, in questo caso il valore del chi-quadrato va scritto come:

$ χ²_{0.05,4} $

Il confronto può dare due possibili risultati:

  • La statistica di test è inferiore al valore del chi-quadrato, per cui non si può rifiutare l'ipotesi che le proporzioni tra gusti siano equivalenti. In conclusione, i sacchetti di caramelle dell'intera popolazione conterranno lo stesso numero di pezzi per ogni gusto. La stima di equivalenza tra le proporzioni è “sufficiente”.
  • La statistica di test è superiore al valore del chi-quadrato, per cui l'ipotesi che le proporzioni tra gusti siano equivalenti viene rifiutata. Non è quindi possibile affermare che i sacchetti di caramelle contengano lo stesso numero di pezzi per ogni gusto. La stima di equivalenza tra le proporzioni è “insufficiente”.

Usiamo un grafico della distribuzione del chi-quadrato per capire meglio i risultati del test. Stiamo verificando se la statistica di test è un valore più estremo del valore critico nella distribuzione. Il grafico che segue mostra una distribuzione del chi-quadrato con quattro gradi di libertà e fa vedere come il valore 9.488 “lasci fuori” il 95 % dei dati. Solo il 5 % dei dati è maggiore di 9.488.

Figura 6: Distribuzione del chi-quadrato con quattro gradi di libertà

Il grafico di distribuzione che segue include i nostri risultati. Possiamo vedere quanto la nostra statistica di test, rappresentata dalla linea tratteggiata al 52.75, sia distante nella coda. Con la scala utilizzata, sembra che l'intersezione tra la curva della distribuzione e la linea tratteggiata sia a zero. In realtà non è così, anche se ci va molto vicino. Si può concludere che è molto improbabile che una situazione simile si verifichi casualmente. Se l'effettiva popolazione di sacchetti di caramelle avesse sempre lo stesso numero di pezzi per gruppo, difficilmente avremmo ottenuto questi risultati da un campione casuale di 10 sacchetti.

Figura 7: Distribuzione del chi-quadrato con quattro gradi di libertà e rappresentazione della statistica di test

Gran parte dei software statistici mostrano il p-value di un test, cioè la probabilità di trovare un valore della statistica di test più estremo in un campione simile (assumendo che l'ipotesi nulla sia corretta). Il calcolo del p-value è difficile da eseguire a mano. Per quanto riguarda l'immagine qui sopra, se la statistica di test è esattamente 9.488, il p-value sarà p=0.05. Con una statistica di test di 52.75, il p-value sarà molto piccolo. Nell'esempio, la maggior parte dei software statistici indicherà il p-value come “p < 0.0001”. Ciò significa che la probabilità che un altro campione di 10 sacchetti di caramelle dia un valore più estremo per la statistica di test è inferiore a una possibilità su 10 000, posto che la nostra ipotesi nulla di equivalenza nel numero di caramelle per gusto sia vera.