Corrélation

Qu'est-ce que la corrélation ?

La corrélation est une mesure statistique qui exprime la notion de liaison linéaire entre deux variables (ce qui veut dire qu'elles évoluent ensemble à une vitesse constante). C'est un outil courant permettant de décrire des relations simples sans s'occuper de la cause et de l'effet.

Comment mesure-t-on la corrélation ?

Le coefficient de corrélation d'un échantillon, r, mesure l'ampleur de la liaison. Les corrélations servent également à analyser la pertinence statistique.

Quelles sont les limites de l'analyse de la corrélation ?

La corrélation ne s'inquiète pas de la présence ou de l'effet d'autres variables en dehors des deux variables étudiées. Et surtout, la corrélation ne nous apprend rien surla cause et l'effet. La corrélation n'est pas non plus en mesure de décrire avec précision les relations curvilinéaires.

Les corrélations décrivent des données qui évoluent ensemble

Les corrélations sont utiles pour décrire des relations simples au sein de données. Par exemple, imaginez que vous avez un ensemble de données de campings dans un parc naturel de montage. Vous souhaitez savoir s'il existe un lien entre l'altitude du camping et la température haute moyenne en été.

Pour chaque camping, vous disposez de deux mesures : altitude et température. Lorsque vous comparez ces deux variables dans votre échantillon avec une corrélation, vous observez une relation linéaire : plus l'altitude augmente, plus la température baisse. C'est une corrélation négative.

Que signifient les chiffres de la corrélation ?

On décrit les corrélations à l'aide d'une mesure sans unité appelée coefficient de corrélation compris entre -1 et +1 et noté r. La significativité statistique est indiquée par une valeur p. Par conséquent, les corrélations sont généralement exprimées à l'aide de deux chiffres : r = et p = .

  • Plus r est proche de zéro, plus la relation linéaire est faible.
  • Les valeurs positives de r indiquent une corrélation positive lorsque les valeurs des deux variables tendent à augmenter ensemble.
  • Les valeurs négatives de r indiquent une corrélation négative lorsque les valeurs d'une variable tend à augmenter et que les valeurs de l'autre variable diminuent.
  • La valeur p indique que l'on peut significativement conclure que le coefficient de corrélation de la population est probablement différent de zéro, d'après nos observations de l'échantillon.
  • « Mesure sans unité » signifie que les corrélations existent sur leur propre échelle : dans notre exemple, le chiffre donné pour r n'est pas sur la même échelle que l'altitude ou la température. Cette notion se distingue des autres statistiques de résumé. Par exemple, la moyenne des mesures d'altitude se situe sur la même échelle que sa variable.

Qu'est-ce que la valeur p ?

La valeur p est une mesure de la probabilité utilisée pour tester l'hypothèse.

Elle indique la probabilité d'obtenir les données que nous observons si aucun effet n'est présent ; en d'autres termes, dans le cas de l'hypothèse nulle. Concernant nos données de camping, l'hypothèse serait qu'il n'existe aucune relation linéaire entre altitude et température. Lorsqu'une valeur p est utilisée pour décrire un résultat comme statistiquement significatif, cela signifie qu'elle est inférieure à un seuil prédéfini (par ex., p <0,05 ou p <0,01) auquel nous rejetons l'hypothèse nulle en faveur d'une hypothèse alternative (pour nos données de camping, selon laquelle il existe une relation entre altitude et température).

Après avoir obtenu une corrélation significative, on peut également s'intéresser à sa force. Une corrélation positive parfaite a une valeur de 1, et une corrélation négative parfaite a une valeur de -1. Mais dans le monde réel, on ne trouve jamais de corrélation parfaite, à moins qu'une variable ne soit en fait une mesure subrogative de l'autre. Concrètement, obtenir une corrélation parfaite doit vous mettre la puce à l'oreille ! Par exemple, si vous enregistré par accident une distance par rapport au niveau de la mer pour chaque camping au lieu de la température, vous obtiendrez une corrélation parfaite avec l'altitude.

Le nombre d'observations, N, est une autre information utile. Comme pour la plupart des analyses statistiques, connaître la taille de l'échantillon aide à évaluer la force de notre échantillon et sa représentativité de la population. Par exemple, si l'on ne mesure que l'altitude et la température de cinq campings, mais que le parc en compte deux mille, il faut ajouter des campings à notre échantillon.

Visualiser les corrélations avec des nuages de points

Reprenons l'exemple précédent : lorsque l'altitude des campings augmente, la température baisse. On peut le constater directement avec un nuage de points. Imaginons que nous avons représenté sur un graphique nos données de camping :

  • Chaque point du graphique représente un camping, que l'on peut situer sur un axe x et y en fonction de son altitude et de sa température haute en été.
  • Le coefficient de corrélation (r) illustre également notre nuage de points. En termes numériques, il nous indique dans quelle mesure les points tracés dans le nuage de points sont liés par une relation linéaire. Plus la relation est forte, ou plus la valeur r est élevée, plus les points sont proches de la ligne que nous avons ajustée aux données.

Et les relations plus complexes ?

Les nuages de points servent également à déterminer s'il existe dans nos données un élément susceptible de perturber une corrélation exacte, comme des motifs inhabituels tels qu'une relation curvilinéaire ou une valeur aberrante.

Les corrélations ne peuvent pas refléter avec précision des relations curvilinéaires. Dans une relation curvilinéaire, les variables sont corrélées dans une direction donnée jusqu'à un certain point, où la relation change.

Par exemple, comparons l'altitude de nos campings et la note attribuée par les campeurs à chaque camping, en moyenne. Peut-être qu'à première vue, l'altitude et la note du camping présentent une corrélation positive, car plus les campings sont en hauteur, meilleure est la vue sur le parc. Mais à un certain point, les altitudes les plus élevées présentent une corrélation négative avec les notes des campings, parce que les campeurs ont froid la nuit !

On peut aller plus loin en ajoutant des ellipses de densité nuancées à notre nuage de points. Une ellipse de densité illustre la région la plus dense des points d'un nuage de points, qui à son tour nous indique la force et la direction de la corrélation.

Les ellipses de densité peuvent être de tailles variées. Habituellement, pour étudier une corrélation, on utilise une ellipse de densité à 95 % qui reflètent approximativement 95 % des observations les plus denses. Si deux variables évoluent ensemble, comme l'altitude et la température de nos campings, on devrait observer une ellipse de densité de même forme que la ligne. Et on peut voir que dans une relation curvilinéaire, l'ellipse de densité est ronde : une corrélation ne nous donnera pas une description significative de cette relation.