Correlazione

Cos'è la correlazione?

La correlazione è una misura statistica che esprime la relazione lineare tra due variabili (che quindi cambiano insieme a una velocità costante) ed è molto usata per descrivere semplici relazioni senza dover parlare di causa ed effetto.

Come si misura?

Il coefficiente di correlazione campione, r, è usato per quantificare la forza del rapporto tra variabili. Le correlazioni vengono usate anche per calcolare la significatività statistica.

Quali limitazioni ha l'analisi della correlazione?

La correlazione non è in grado di verificare la presenza o l'effetto di altre variabili che non siano le due prese in esame. In particolare, non ci dice niente di causa ed effetto. Inoltre, non è in grado di descrivere con precisione le relazioni curvilinee.

La correlazione descrive dati che cambiano insieme

Le correlazioni sono utili a descrivere relazioni semplici tra i dati. Poniamo, per esempio, che tu debba esaminare il dataset dei campeggi in un'area di montagna per capire se c'è una correlazione tra la quota del campeggio (l'altitudine a cui si trova) e la temperatura media in estate.

Per ogni campeggio avrai quindi due valori: quota e temperatura. Confrontando le due variabili con un campione dotato di una determinata correlazione, scoprirai che si tratta di una relazione lineare, in cui con l'aumentare dell'altitudine la temperatura diminuisce. In questo caso si tratta quindi di una correlazione negativa.

Cosa indicano i valori della correlazione?

La correlazione viene descritta mediante un valore che non è dotato di un'unità di misura specifica, chiamato coefficiente di correlazione, compreso tra -1 e +1 e denotato da r. La significatività statistica è indicata tramite un p-value. Pertanto, le correlazioni in genere vengono scritte utilizzando due numeri fondamentali: r e p.

  • Più r si avvicina a zero, più la correlazione lineare è debole.
  • Un valore r positivo è indice di una correlazione positiva, in cui i valori delle due variabili tendono ad aumentare in parallelo.
  • Un valore r negativo è indice di una correlazione negativa, in cui il valore di una variabile tende ad aumentare quando l'altra diminuisce.
  • Il p-value è la prova che, in base a quanto osservato sul campione, possiamo concludere in maniera significativa che il coefficiente di correlazione della popolazione è diverso da zero.
  • La mancanza di un'unità di misura implica che la correlazione viene misurata secondo una scala propria: nel nostro esempio, il numero corrispondente a r non è sulla scala dell'altitudine né su quella della temperatura. In questo senso, differisce da altre statistiche di riepilogo, poiché, per esempio, la media delle altitudini rientra nella stessa scala della variabile corrispondente.

Cos'è il p-value?

Il p-value è una misura della probabilità usata nel test di verifica di ipotesi.

Indica la probabilità di ottenere i dati cercati in mancanza di un effetto, quindi nel caso sostenuto dall'ipotesi nulla. Nel caso dei dati dei campeggi, l'ipotesi nulla corrisponde all'idea che non ci sia alcuna relazione lineare tra quota e temperatura. Quando un p-value viene usato per descrivere un risultato come statisticamente significativo, significa che non rientra nel limite predefinito (es. p < 0,05 or p < 0,01), per cui si può rifiutare l'ipotesi nulla in favore dell'ipotesi alternativa (nel caso dei campeggi, quindi, l'idea che ci sia una relazione tra altitudine e temperatura).

Una volta ottenuta una correlazione significativa, possiamo misurarne la forza. Una correlazione positiva perfetta ha valore pari a 1, mentre una correlazione negativa perfetta è pari a -1. Nel mondo reale, però, non ci si può aspettare di ottenere una correlazione perfetta, a meno che una delle due variabili non sia una proxy dell'altra. Al contrario, ottenere un valore di correlazione perfetta potrebbe essere indice di un errore nei dati: se per esempio avessi registrato l'altezza sul livello del mare per ogni campeggio, invece della temperatura, il dato sarebbe in una relazione perfetta con la quota.

Un altro dato utile è N, o il numero di osservazioni. Come per la maggior parte dei test statistici, conoscere le dimensioni del campione ci aiuta a giudicarne la validità e a capire quanto è in grado di rappresentare la relativa popolazione. Se per esempio avessimo misurato quota e temperatura di cinque campeggi, ma l'area in esame ne comprendesse duemila, sarebbe il caso di allargare il campione.

Visualizzare le correlazioni mediante grafici a dispersione

Torniamo all'esempio citato sopra: all'aumentare della quota dei campeggi, la temperatura cala. Per visualizzare questa correlazione, possiamo ricorrere a un grafico a dispersione. Immaginiamo di inserire i dati in un grafico:

  • Ogni punto del grafico rappresenta un campeggio, posizionato sugli assi x e y in base all'altitudine a cui si trova e alla massima temperatura raggiunta in estate.
  • Il coefficiente di correlazione (r) presente nel grafico ci dice in termini numerici quanto i punti mappati sono vicini a una relazione lineare. Valori di r maggiori, indice di relazioni più forti, implicherebbero una relazione in cui i punti sono più vicini alla linea tracciata tra i dati.

E per relazioni più complesse?

I grafici a dispersione sono utili anche a determinare se tra i nostri dati ci sia qualcosa in grado di interrompere una correlazione accurata, per esempio schemi insoliti come una relazione curvilinea o un valore anomalo a un'estremità.

Le correlazioni non sono in grado di cogliere con precisione le relazioni curvilinee. In una relazione curvilinea, infatti, le variabili sono correlate in una certa direzione fino a un certo punto, quando la relazione cambia.

Poniamo, per esempio, di prendere in esame la quota dei campeggi e la valutazione media lasciata dai campeggiatori: all'inizio è probabile che i due valori siano correlati positivamente, perché i campeggi più alti godono di un miglior panorama del parco. A un certo punto, però, la correlazione diventerà negativa, perché nei campeggi più alti di notte fa più freddo e le recensioni lasciate saranno più basse.

Per un ulteriore livello di approfondimento, possiamo aggiungere al nostro grafico delle ellissi di densità. Un'ellisse di densità illustra la regione di maggiore densità dei punti di un grafico a dispersione, aiutandoci a visualizzare la forza e la direzione della correlazione.

Le ellissi di densità possono essere di varie dimensioni. Una delle scelte più comuni nell'analisi della correlazione è l'ellisse di densità al 95 %, che raffigura il 95 % delle osservazioni più dense. Nel caso di due variabili che cambiano in parallelo, come la quota e la temperatura dei campeggi, l'ellisse di densità ricalcherà la forma della linea. Quando la relazione è curvilinea, invece, l'ellisse diventa tonda, perché una correlazione non è in grado di descrivere la relazione in maniera sufficientemente significativa.