Moyenne, médiane et mode

Quelle est la moyenne ?

La moyenne mesure le point d'équilibre d'un ensemble de valeurs de données. Pour les données continues, il s'agit de la moyenne des valeurs de la donnée.

Comment la moyenne est-elle utilisée ?

La moyenne d'un échantillon de valeurs de données est utilisée pour estimer la moyenne réelle de la population inconnue. La moyenne est souvent utilisée comme simple résumé statistique d'un jeu de données. Elle est utilisée conjointement avec l'écart-type pour calculer les intervalles statistiques, les tests d'hypothèses ainsi que les limites de contrôle.

Quels sont les problèmes à prendre en compte concernant la moyenne ?

La moyenne peut être affectée par des valeurs extrêmes. Lorsque vous avez des valeurs extrêmes ou une distribution asymétrique, la médiane peut constituer une meilleure mesure du centre des données. Avant d'utiliser la moyenne, vérifiez si vos données contiennent des valeurs extrêmes et regardez un graphique pour voir si les données sont à peu près symétriques.

Qu'est-ce que la médiane ?

La médiane est le 50e centile de l'échantillon de données. En d'autres termes, 50 % des données sont supérieures à la médiane et 50 % lui sont inférieures. La médiane est une autre estimation du milieu des données de votre échantillon.

Qu'est-ce que le mode ?

Le mode est la valeur qui revient le plus fréquemment dans vos données. Un jeu de données ne contenant aucune valeur répétée n'a pas de mode. Un jeu de données avec plusieurs valeurs répétées à la même fréquence peut avoir plusieurs modes. Le mode est une autre statistique utilisée pour estimer le milieu des données.

La moyenne est le point d'équilibre d'un jeu de données 

Supposons que vous disposiez d'un ensemble de valeurs de données et que vous les traciez comme indiqué dans la Figure 1. L'axe horizontal montre les valeurs des données. L'axe vertical quantifie le nombre de points définis par une valeur donnée. En termes statistiques, il s'agit d'un histogramme ou de la distribution des données. La moyenne estime le point d'équilibre des données.

Figure 1 : Histogramme des valeurs des données

Qu'est-ce que la moyenne d'une population ?

La moyenne d'une population correspond au centre de la population théorique et est souvent inconnue.

Prenons un exemple dans lequel nous connaissons la population. Supposons que vous souhaitiez connaître la vitesse moyenne du vent des ouragans au moment où ils atteignent les côtes depuis 1950. Il s'agit donc d'une population relativement petite et des données ont été collectées sur le sujet. Vous pouvez ainsi facilement calculer la moyenne de la population.

Mais dans de nombreux cas, il est impossible de connaître la moyenne réelle parce que les données ne portent pas sur l'ensemble de la population.

La moyenne d'une population est indiquée dans les formules par la lettre grecque du « petit m » ou « mu ». Son symbole est μ.

Qu'est-ce que la moyenne d'un échantillon ?

Si vous souhaitez estimer la moyenne d'une population inconnue, vous devez collecter un échantillon de données et en calculer la moyenne.

La moyenne d'un échantillon correspond au centre des données de l'échantillon. Il s'agit en fait d'une estimation de la moyenne d'une population.

Le symbole statistique de la moyenne d'un échantillon dans les formules est constitué d'un x surmonté d'une ligne ou d'une barre et appelé « X-barre » ().

Quelle est la différence entre la moyenne d'un échantillon et la moyenne arithmétique ?

Ces deux termes désignent la moyenne d'un échantillon. Ils veulent dire la même chose.

Comme la moyenne d'une population est souvent inconnue, le terme « moyen(ne) » se rapporte à la « moyenne d'un échantillon ». Lorsque des articles mentionnent le « revenu moyen » ou la « température moyenne », ils font généralement référence à la moyenne des données de l'échantillon.

Il n'y a pas nécessairement 50 % « au-dessus de la moyenne »

De nombreuses personnes commettent l'erreur de supposer que 50 % des valeurs de données sont supérieures à la moyenne de l'échantillon et 50 % lui sont inférieures. Ce n'est pas toujours le cas. Elles confondent en fait la moyenne et la médiane, qui ne sont identiques que dans certaines conditions.

Comment calculer la moyenne

Pour calculer la moyenne, vous devez additionner toutes les valeurs de données de votre échantillon, puis diviser le résultat par leur nombre. Prenons un exemple simple pour mieux comprendre ce calcul.

Supposons que vos valeurs de données soient 4, 5 et 6. Pour calculer la moyenne :

$\frac{(4+5+6)}{3} = \frac{15}{3} = 5$

On utilise généralement un logiciel pour calculer la moyenne. La formule est la suivante :

$\overline{x}=\frac{Σx_i}{n}$

Dans la formule ci-dessus, l'échantillon comporte n valeurs de données. Chaque valeur est représentée par xi. Le symbole de la somme $Σ$ signifie que les valeurs de données doivent être additionnées, comme nous l'avons fait dans l'exemple.

Pour une moyenne de population inconnue, la taille de la population est souvent représentée par un N majuscule. Dans les rares cas où vous pouvez calculer la moyenne de la population, la formule est la même, mais vous devez remplacer n par N.

La médiane

La médiane est le 50e centile de l'exemple de données. On peut donc partir du principe que 50 % des valeurs sont toujours supérieures à la médiane et que 50 % lui sont toujours inférieures. Comme pour la moyenne, il faut calculer la médiane d'un échantillon pour estimer la médiane d'une population inconnue. La médiane réelle d'une population est rarement disponible.

La moyenne et la médiane fournissent toutes deux une estimation du centre des données, et elles sont souvent indiquées. Comme nous le verrons plus loin, la médiane est moins affectée par les valeurs extrêmes ou par les données non symétriques.

Comment calculer la médiane

Pour calculer la médiane, vous devez d'abord trier les exemples de valeurs de données de la plus basse à la plus haute, puis rechercher la valeur centrale.

Quelques exemples simples permettront de mieux comprendre cette notion.

Supposons que vos valeurs de données soient à nouveau 4, 5 et 6.

Tout d'abord, triez les valeurs de la plus basse à la plus haute : 4 - 5 - 6.

La valeur intermédiaire (dans cet exemple, le 5) est la médiane. La moitié des données est supérieure à la médiane et l'autre moitié lui est inférieure.

Deuxième exemple : supposons que l'échantillon comporte un nombre pair de valeurs de données, disons 7, 4, 5 et 6. Il n'existe pas de valeur centrale unique.

Commencez par trier les valeurs de la plus basse à la plus haute : 4 - 5 - 6 - 7.

Ensuite, trouvez les deux valeurs centrales : 5 et 6.

Enfin, prenez la moyenne de ces deux valeurs en les additionnant, puis en divisant le résultat par 2. Vous obtenez alors la médiane. Dans notre exemple :

$\frac{5+6}{2} = \frac{11}{2} = 5,5$

Dans ces deux exemples, la médiane est la valeur centrale. La moitié des données de l'échantillon est supérieure à la médiane et l'autre moitié lui est inférieure.

Pour le deuxième exemple, nous avons 4 - 5 - 5,5 - 6 - 7, la médiane de 5,5 se situe donc au milieu des valeurs de données de l'échantillon classées dans l'ordre.

On utilise généralement un logiciel pour calculer la médiane.

Le mode

Le mode est une autre statistique utilisée pour estimer le milieu des données. Il s'agit de la valeur la plus fréquente.

Par exemple, supposons que les valeurs de données sont 3, 4, 4, 4, 5 et 6.

Le mode est 4, car c'est la valeur la plus fréquente.

La plupart des logiciels de statistique calculent le mode. Cependant, en pratique, le mode n'est pas utilisé aussi souvent que la moyenne ou la médiane ; nous allons donc nous concentrer sur celles-ci pour le reste de cette page.

L'impact des valeurs de données extrêmes sur la moyenne et la médiane d'un échantillon

La moyenne de l'échantillon peut être sensible aux valeurs de données extrêmes. En modifiant légèrement l'exemple ci-dessus, supposons que les valeurs de données de l'échantillon soient maintenant 4, 5 et 12.

La moyenne de l'échantillon est :

$\frac{4+5+12}{3} = \frac{21}{3} = 7$

La médiane de l'échantillon est la valeur intermédiaire des valeurs de données classées 4 – 5 – 12, soit 5.

Comparons cela avec l'exemple précédent. Les valeurs de données de 4, 5 et 6 avaient une moyenne et une médiane de 5. En passant une seule valeur de données de 6 à 12, la médiane n'a pas changé, mais la moyenne est passée de 5 à 7.

Pour les jeux de données plus volumineux, une seule valeur de données extrême peut avoir un impact plus important sur la moyenne de l'échantillon, mais un impact plus faible sur sa médiane. On dit que la médiane est résistante aux valeurs aberrantes ou extrêmes.

Les distributions ci-dessous montrent un jeu de données avec une valeur aberrante exclue (Figure 2), puis avec la valeur aberrante inclue (Figure 3).

Figure 2 : Distribution du jeu de données excluant la valeur aberrante
Figure 3 : Distribution du jeu de données incluant la valeur aberrante

La médiane des deux jeux de données est de 44,6. La moyenne des données sans la valeur aberrante est de 45,3 et celle avec la valeur aberrante est de 45,6. L'échelle des deux histogrammes est comprise entre 20 et 90.

ATTENTION ! Ne supprimez pas une valeur extrême simplement parce qu'elle apparaît. Il convient de déterminer si la valeur extrême est une erreur ou une anomalie. S'il s'agit d'une erreur, vous devez essayer de la corriger. Si vous ne pouvez pas identifier cette valeur extrême comme une erreur, vous ne devez pas l'omettre des données. Dans ce cas, vous pouvez décider de présenter votre analyse à la fois avec et sans le point de données douteux.

Supposons, par exemple, que vous collectiez des données sur la tension artérielle. Une personne de votre échantillon a une pression artérielle systolique de 95. Il s'agit d'une valeur faible mais raisonnable. Cependant, cette même personne présente une pression artérielle diastolique de 95. Il est très peu probable que cette valeur soit correcte. Il vous appartient donc de retrouver les données d'origine et de vérifier si ce point de données constitue une erreur ou non.

L'impact de la symétrie des données sur la moyenne et la médiane d'un échantillon

La moyenne diffère de la médiane lorsque les données de l'échantillon ne sont pas symétriques, c'est-à-dire en cas de distribution asymétrique.

Prenons trois types de distribution : symétrique, asymétrique à gauche et asymétrique à droite.

L'histogramme de la figure 4 ci-dessous présente des données presque symétriques. Si vous imaginez plier le graphique en deux au milieu, chaque côté sera à peu près identique. La moyenne et la médiane sont très similaires.

L'histogramme de la figure 5 présente des données qui ne sont pas symétriques. Le poids des données est plus important pour les valeurs les plus basses. Elles sont donc asymétriques à gauche. Le coefficient de dissymétrie est négatif et la moyenne est inférieure à la médiane.

L'histogramme de la figure 6 présente également des données qui ne sont pas symétriques, mais le poids des données est plus important pour les valeurs les plus élevées. Elles sont donc asymétriques à droite. Le coefficient de dissymétrie est positif et la moyenne est supérieure à la médiane.

Figure 4 : Distribution de données presque symétriques
Figure 5 : Données asymétriques à gauche
Figure 6 : Données asymétriques à droite

Quand utiliser la moyenne et la médiane

Les Figures 7 à 9 montrent les types de données pour lesquelles l'utilisation d'une moyenne et d'une médiane est judicieuse.

Figure 7 : Distribution de données continues, pour lesquelles la moyenne et la médiane de l'échantillon peuvent être calculées.
Figure 8 : Distribution de données ordinales, pour lesquelles la moyenne et la médiane de l'échantillon ne doivent pas être calculées.
Figure 9 : Distribution de données nominales, pour lesquelles la moyenne et la médiane de l'échantillon ne doivent pas être calculées.

Données continues : la moyenne et la médiane sont pertinentes

Rechercher la moyenne et la médiane est pertinent pour les données continues. Celles-ci sont mesurées sur une échelle avec de nombreuses valeurs possibles. Voici quelques exemples de données continues :

  • Âge
  • Pression artérielle
  • Pondération
  • Température
  • Vitesse

Pour tous ces exemples, il est logique de calculer la moyenne et la médiane.

Données ordinales ou nominales : la moyenne et la médiane ne sont pas pertinentes

Le calcul de la moyenne et de la médiane n'est pas pertinent pour les données ordinales ou nominales. En effet, ces types de données sont mesurés sur une échelle avec seulement quelques valeurs possibles.

Avec des données ordinales, l'échantillon est divisé en groupes et les réponses ont un ordre défini. Par exemple, dans une enquête où il vous est demandé de donner votre opinion sur une échelle allant de « Pas du tout d'accord » à « Tout à fait d'accord » (Figure 8), vos réponses sont ordinales.

Dans le cas des données nominales, l'échantillon est également divisé en groupes, mais il n'y a pas d'ordonnancement. Citons par exemple le sexe biologique et le pays de résidence. Dans de rares situations, lorsque les données nominales sont codées avec une valeur numérique, vous pouvez calculer des moyennes. L'interprétation de la moyenne dépendra du codage. Par exemple, si les sexes sont codés avec un 0 pour les hommes et un 1 pour les femmes, et que la moyenne de l'échantillon est calculée, vous pouvez obtenir un résultat de 0,6. Cette valeur représente la proportion de femmes dans votre échantillon, ce qui a du sens. Concernant le pays, en codant les noms de pays avec des valeurs numériques, vous pourriez calculer une moyenne. Cependant, le résultat n'aurait pas de sens ; la moyenne n'aurait aucune interprétation significative.