Correlazione o causalità?

La correlazione è indice della relazione tra due variabili. Tuttavia, lo sviluppo di due variabili in parallelo non significa necessariamente che una sia la causa dell'altra. Ecco perché si dice che “la correlazione non è necessariamente indice di causalità”.

Una correlazione forte può essere indice di causalità, ma potrebbero anche esserci altre spiegazioni:

Potrebbe essere il risultato di un puro caso, per cui le variabili sembrano correlate ma in realtà non vi è alcuna relazione sottesa.
Potrebbe esserci una terza variabile nascosta che fa sembrare la relazione più forte (o più debole) di quanto non sia.

Nei dati osservazionali, la correlazione non è una conferma di causalità...

La correlazione tra variabili ci mostra i pattern esistenti tra variabili che tendono a muoversi in parallelo. Tuttavia, da sola non è sufficiente a dirci se i dati evolvono insieme perché una variabile è causa dell'altra.

È possibile riscontrare una correlazione statistica significativa tra due variabili che in realtà non sono legate da alcun rapporto di causalità: in effetti, si tratta di una relazione piuttosto comune, spesso dovuta al fatto che entrambe le variabili sono associate a una terza variabile causale, che tende a verificarsi in concomitanza con i dati misurati.

Esempio: attività fisica e tumori della pelle

Facciamo un esempio che ci aiuti a capire meglio: immaginiamo di analizzare dei dati sanitari e di riscontrare una correlazione positiva significativa tra l'attività fisica e i casi di cancro della pelle. In sostanza, chi fa più attività sembrerebbe più propenso a sviluppare tumori cutanei. La correlazione sembra forte e convincente e si manifesta in diverse popolazioni di pazienti. Senza ulteriori analisi, si potrebbe concludere che l'attività fisica possa causare il cancro! In base a questi soli risultati, sembrerebbe persino plausibile sviluppare un'ipotesi secondo cui lo stress dovuto all'esercizio porta il corpo a indebolirsi contro i danni provocati dal sole.

Poniamo però che, in realtà, questa correlazione tra dati sia dovuta al fatto che chi vive in zone esposte al sole per la maggior parte dell'anno ha una vita quotidiana molto più attiva degli altri, e che questo risulti in una maggiore quantità di esercizio. Al tempo stesso, la maggiore esposizione al sole comporta anche un aumento dei casi di tumori cutanei. Entrambe le variabili, quantità di esercizio e cancro alla pelle, sono quindi influenzate da una terza variabile causale, cioè l'esposizione al sole, senza che tra le prime due vi sia un rapporto di causalità.

...ma una ricerca empirica ben progettata può evidenziare la causalità

Distinguere tra ciò che può costituire o meno una dimostrazione di causalità è fondamentale per una corretta analisi dei dati. Nel mondo reale, la determinazione dei rapporti causa-effetto non è mai perfetta. Tuttavia, esiste una serie di tecniche sperimentali, statistiche e di progettazione delle ricerche che consente di raccogliere prove della causalità di una relazione, come per esempio randomizzazione, esperimenti controllati e modelli predittivi con più variabili. Al di là delle limitazioni intrinseche dei test di correlazione (es. l'incapacità di misurare relazioni trivariate caratterizzate da una potenziale causalità), è importante capire che le prove della causalità di un rapporto in genere non vengono dai singoli test statistici ma da un'attenta pianificazione degli esperimenti da realizzare.

Esempio: malattie cardiache, dieta e attività fisica

Immaginiamo di nuovo di essere ricercatori in ambito sanitario, ma di occuparci, questa volta, di una gran mole di dati relativi a percentuali di malati, diete seguite e altri comportamenti simili. Supponiamo di individuare due diverse correlazioni: una maggiore percentuale di malattie cardiache correlata a una dieta più ricca di grassi (correlazione positiva) e una maggiore frequenza di esercizio correlata con una minore percentuale di malattie cardiache (correlazione negativa). Entrambe le correlazioni sono frequenti e sembrano credibili. Pare proprio che ci sia un rapporto di causalità, no?

Nel caso di questi dati, la correlazione sembrerebbe suggerire una relazione causale sottesa, ma senza un'analisi più approfondita è impossibile stabilirlo per certo. Poniamo che, una volta individuate queste correlazioni, il passo successivo sia progettare uno studio biologico che analizzi il modo in cui il corpo assimila i grassi e come questo influisce sull'attività cardiaca. Magari, scopriremmo l'esistenza di un meccanismo per cui i grassi assunti in eccesso vengono accumulati in un modo che sottopone il cuore a un maggiore stress. A questo punto, potremmo concentrarci sull'attività fisica e, mediante un esperimento randomizzato controllato, rilevare che fare esercizio interrompe l'accumulo di grassi, riducendo lo sforzo richiesto al cuore.

Tutti questi dati portano a un'unica spiegazione: le diete più ricche di grassi possono effettivamente causare l'insorgere di malattie cardiache. La correlazione iniziale tra diete ad alto consumo di grassi e malattie del cuore si è quindi dimostrata vera anche a seguito di un'analisi più approfondita.

In questo esempio, però, la dimostrazione della causalità non è derivata dal test di correlazione di per sé, che si è limitato a fornirci la relazione tra dati osservazionali (come la percentuale di malattie cardiache e la dieta e l'attività fisica dei soggetti interessati), ma ci è stata data da analisi di carattere empirico.

Come si studia la causalità? Con il giusto tipo di analisi!

Comprendere la causalità è tutt'altro che facile. Nel mondo reale, non si ha mai accesso a tutti i dati di cui si può avere bisogno per mappare tutte le relazioni possibili tra due variabili. Tuttavia, esistono delle strategie fondamentali per isolare e analizzare i meccanismi tra diverse variabili. Per esempio, in un esperimento controllato si può cercare di mettere insieme due gruppi simili, applicando in maniera randomizzata uno specifico trattamento o tipo di intervento a uno solo dei due.

Il principio della randomizzazione è fondamentale per la progettazione degli esperimenti, e capire come funziona può cambiare quel che riusciamo a dedurre dai test statistici.

Torniamo al primo esempio, in cui si esaminava la relazione tra l'attività fisica e lo sviluppo di tumori della pelle. Immaginiamo di poter prendere un campione ampio e ben distribuito di persone e di chiedere loro, con una distribuzione casuale, di fare attività fisica a diversi livelli ogni settimana per dieci anni. Al termine del periodo indicato, andremo a esaminare le percentuali di tumori della pelle sviluppatisi all'interno del gruppo. A quel punto, avremo a disposizione un set di dati progettato in maniera sperimentale proprio per verificare la presenza di un rapporto tra attività fisica e tumori della pelle. Dal momento che nel nostro esperimento la quantità di attività fisica è stata manipolata direttamente tramite una suddivisione randomizzata, non è possibile che sia sistematicamente correlata ad altre variabili che potrebbero variare tra un gruppo e l'altro (ponendo che tutti gli altri aspetti dello studio siano validi). In questo caso, dal momento che i dati ottenuti sono il risultato di un esperimento ben progettato, una correlazione tra attività fisica e tumori della pelle sarebbe un indizio importante dell'esistenza di una causalità.