Coefficient de corrélation

Qu'est-ce que le coefficient de corrélation ?

Le coefficient de corrélation est la mesure spécifique qui quantifie la force de la relation linéaire entre deux variables d'une analyse de corrélation. Le coefficient est noté r dans un rapport de corrélation.

À quoi sert le coefficient de corrélation ?

Pour deux variables, la formule compare la distance de chaque point de données depuis la moyenne de la variable et l'utilise pour indiquer dans quelle mesure la relation entre les variables suit une ligne imaginaire tracée dans les données. C'est ce que l'on entend par « les corrélations concernent les relations linéaires ».

Quelles sont les limites à prendre en compte ?

La corrélation n'inclut que deux variables et ne donne aucune information sur des éventuelles relations contenant plus de données. Cette analyse ne détectera pas (et sera donc biaisée par) les valeurs aberrantes présentes dans les données et ne peut pas détecter les relations curvilinéaires.

Variantes du coefficient de corrélation

Dans ce chapitre, nous nous intéressons à la corrélation produit-moment de Pearson. En pratique, c'est l'une des mesures de corrélation les plus utilisées, mais il en existe d'autres. La corrélation de Spearman est une variante très proche, similaire dans l'utilisation mais applicable à des données classées.

Que signifient les valeurs du coefficient de corrélation ?

Le coefficient de corrélation r est une valeur sans unité comprise entre -1 et 1. La significativité statistique est indiquée par une valeur p. Par conséquent, les corrélations sont généralement exprimées à l'aide de deux chiffres clés : r = et p = .

  • Plus r est proche de zéro, plus la relation linéaire est faible.
  • Les valeurs positives de r indiquent une corrélation positive lorsque les valeurs des deux variables tendent à augmenter ensemble.
  • Les valeurs négatives de r indiquent une corrélation négative lorsque les valeurs d'une variable tend à augmenter et que les valeurs de l'autre variable diminuent.
  • Les valeurs 1 et -1 représentent chacune les corrélations « parfaites », positive et négative respectivement. Deux variables présentant une corrélation parfaite évoluent ensemble à une vitesse fixe. On dit que la relation est linéaire ; reportés dans un nuage de points, tous les points des données peuvent être reliés par une ligne droite.
  • La valeur p indique si l'on peut ou non significativement conclure que le coefficient de corrélation de la population est différent de zéro, d'après nos observations de l'échantillon.

Qu'est-ce que la valeur p ?

La valeur p est une mesure de la probabilité utilisée pour tester l'hypothèse. Le but du test d'hypothèse est de déterminer s'il existe suffisamment de preuves pour soutenir une certaine hypothèse concernant vos données. En fait, nous formulons deux hypothèses : l'hypothèse nulle et l'hypothèse alternative. Dans le cas de l'analyse de la corrélation, l'hypothèse nulle est généralement que la relation observée entre les variables est le pur fruit du hasard (le coefficient de corrélation est vraiment zéro, il n'existe pas de relation linéaire). L'hypothèse alternative est que la corrélation mesurée est légitimement présente dans nos données (le coefficient de corrélation est différent de zéro).

La valeur p désigne la probabilité d'observer un coefficient de corrélation différent de zéro dans les données de notre échantillon lorsqu'en fait l'hypothèse nulle est vraie. Une faible valeur p impliquerait de rejeter l'hypothèse nulle. En général, le seuil de rejet d'une hypothèse nulle est une valeur p de 0,05. Ainsi, si vous avez une valeur p inférieure à 0,05, vous rejetez l'hypothèse nulle en faveur de l'hypothèse alternative selon laquelle le coefficient de corrélation est différent de zéro.

 

Concrètement, comment calculer le coefficient de corrélation ?

Le coefficient de corrélation de l'échantillon peut être représenté par une formule :

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\
\ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

Afficher la formule annotée

Voyons comment calculer le coefficient de corrélation à l'aide d'un exemple contenant un petit ensemble de nombres simples, pour simplifier les opérations.

Imaginons que l'on cherche à savoir si l'on peut prévoir une augmentation des ventes de glaces dans notre ville lors des journées plus chaudes. Les glaciers ouvrent au printemps ; peut-être que les gens achètent plus de glaces lorsqu'il fait chaud. D'autre part, peut-être que les gens achètent simplement des glaces régulièrement parce qu'ils adorent ça.

On commence par rassembler des données sur les ventes de glaces quotidiennes moyennes et sur la température la plus chaude. Les ventes de glaces et la température sont donc les deux variables que nous utiliserons pour calculer le coefficient de corrélation. Parfois, ce type de données est appelé données bivariées, car chaque observation (ou point temporel auquel nous avons mesuré les ventes et la température) contient deux éléments d'information que l'on peut utiliser pour la décrire. En d'autres termes, on se demande si les ventes de glaces et la température semblent évoluer ensemble.

Comme précédemment, on peut commencer par un nuage de points :

On peut également placer ces données dans un tableau qui nous aide à suivre le calcul du coefficient pour chaque point de données. Pour les données bivariées, on appelle généralement une variable X et l'autre Y (ce qui aide également à se repérer sur un plan visuel, comme les axes d'un graphique). Prenons X pour les ventes de glaces et Y pour la température.

Notez que chaque point de données est apparié. N'oubliez pas, nous nous intéressons à des points temporels individuels, et chaque point possède une valeur pour les ventes et la température.

Ventes de glaces (X)Température °F (Y)
370
675
980

 

1. Commencez par trouver les moyennes de l'échantillon

Maintenant que nous sommes orientés sur nos données, nous pouvons commencer avec deux sous-calculs importants issus de la formule ci-dessus : la moyenne de l'échantillon et la différence entre chaque point de données et cette moyenne (pour ces étapes, vous pouvez également observer les blocs initiaux de l'écart type).

Les moyennes de l'échantillon sont représentées par les symboles et , parfois appelés « x barre » et « y barre ». Les moyennes des ventes de glaces () et de température () se calculent facilement de la façon suivante :

$$ \overline{x} =\ [3\ +\ 6\ +\ 9] ÷ 3 = 6 $$

$$ \overline{y} =\ [70\ +\ 75\ +\ 80] ÷ 3 = 75 $$

2. Calculez la distance de chaque point de données par rapport à sa moyenne

Maintenant que l'on a calculé la moyenne de chacune des deux variables, la prochaine étape consiste à soustraire la moyenne des Ventes de glaces (6) de chacun de nos points des données de Ventes (xi dans la formule), et la moyenne de Température (75) de chacun de nos points des données de Température (yi dans la formule). À noter que parfois cette opération donne des résultats négatifs ou nuls !

Glaces (X)Température °F (Y)$x_i-\overline{x}$$y_i-\overline{y}$
$3$$70$$3 - 6 = -3$$70 - 75 = -5$
$6$$75$$6 - 6 = 0$$75 - 75 = 0$
$9$$80$$9 - 6 = 3$$80 - 75 = 5$

 

3. Calculez le haut de l'équation de coefficient

Cet élément de l'équation s'appelle la Somme des produits. Un produit est un nombre que l'on obtient après une multiplication, cette formule porte donc bien son nom : c'est la somme des nombres que vous multipliez.

$$ \sum[(x_i-\overline{x})(y_i-\overline{y})] $$

On prend les valeurs appariées de chaque ligne des deux dernières colonnes du tableau ci-dessus, on les multiplie (n'oubliez pas que multiplier deux nombres négatifs donne un nombre positif !), et on additionne ces résultats :

$$ [(-3)(-5)] + [(0)(0)] + [(3)(5)] = 30 $$

ALLONS PLUS LOIN :

Quel est le lien entre la Somme des produits et le nuage de points ?


Le calcul de la Somme des produits et l'emplacement des points des données dans notre nuage de points sont intrinsèquement liés.

Notez que la Somme des produits est positive pour nos données. Lorsque la Somme des produits (le numérateur de notre équation de coefficient de corrélation) est positive, le coefficient de corrélation r est positif, puis le dénominateur, une racine carrée, est toujours positif. On sait qu'une corrélation positive signifie que les augmentations d'une variable sont associées aux augmentations de l'autre (comme notre exemple des Ventes de glaces et de la Température), et dans un nuage de points, les points des données vont vers le haut de gauche à droite. Mais comment la Somme des produits reflète-t-elle cela ?

  • Pour obtenir une Somme des produits positive, il faut additionner des produits qui tendent à être positifs.
  • Pour obtenir une valeur positive pour chacun des produits, il faut multiplier deux valeurs négatives ou deux valeurs positives.
  • Pour obtenir une paire de deux nombres négatifs, il faut deux valeurs inférieures à leurs moyennes (en bas à gauche du nuage de points), et pour obtenir une paire de deux nombres positifs, il faut deux valeurs supérieures à leurs moyennes (en haut à droite du nuage de points).

Ainsi, la Somme des produits nous indique si les données tendent à apparaître en bas à gauche et en haut à droite du nuage de points (corrélation positive), ou bien si les données tendent à apparaître en haut à gauche et en bas à droite du nuage de points (corrélation négative).

 

4. Calculez le bas de l'équation de coefficient

Le dénominateur de notre équation de coefficient de corrélation est le suivant :

$$ \sqrt{\mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2} $$

Prenons les expressions de cette équation séparément et intégrons les nombres issus de notre exemple des Ventes de glaces :

$$ \mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2=-3^2+0^2+3^2=9+0+9=18 $$

$$ \mathrm{\Sigma}{(y_i\ -\ \overline{y})}^2=-5^2+0^2+5^2=25+0+25=50 $$

Lorsque l'on multiplie le résultat des deux expressions, on obtient :

$$ 18\times50\ =\ 900 $$

Le bas de l'équation est donc :

$$ \sqrt{900}=30 $$

 

5. Finissez le calcul et comparez notre résultat au nuage de points

Voici de nouveau notre équation de coefficient de corrélation complète :

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\
\ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

Intégrons les nombres pour le numérateur et le dénominateur calculés précédemment :

$$ r=\frac{30}{30}=1 $$

Une corrélation parfaite entre les ventes de glace et les chaleurs estivales ! Évidemment, trouver une corrélation parfaite est si peu probable dans le monde réel que si nous avions travaillé sur des données réelles, un tel résultat aurait indiqué une erreur.

Mais ce résultat issu des données simplifiées de notre exemple est facile à comprendre rien qu'en regardant les points des données. Reprenons notre nuage de points :

À présent, imaginons que l'on trace une ligne dans ce nuage de points. Cela ressemblerait-il à une régression simple ?

Une image vaut 1 000 coefficients de corrélation !

Les nuages de points, et autres visualisations de données, sont des outils utiles tout au long du processus statistique, pas seulement avant de tester les hypothèses.

En fait, il ne faut pas oublier que baser ses conclusions uniquement sur le coefficient de corrélation peut être source d'erreur, en particulier dans des situations impliquant des relations curvilinéaires ou des valeurs aberrantes. Dans les nuages de points ci-dessous, on nous rappelle qu'un coefficient de corrélation de zéro ou proche de zéro ne signifie pas forcément qu'il n'existe pas de relation entre les variables ; cela signifie simplement qu'il n'existe pas de relation linéaire.

De même, observer un nuage de points peut fournir des informations sur la façon dont les valeurs aberrantes, les observations inhabituelles dans nos données, peuvent fausser le coefficient de corrélation. Prenons un exemple contenant une valeur aberrante. Le coefficient de corrélation indique qu'il existe une relation positive relativement forte entre X et Y. Mais lorsque l'on supprime la valeur aberrante, le coefficient de corrélation est proche de zéro.