Distribution normale

Qu'est-ce qu'une distribution normale ?

La distribution normale est une distribution théorique des valeurs d'une population. Souvent en forme de cloche lorsqu'elles sont représentées dans un graphique, les données normalement distribuées ont tendance à s'accumuler autour d'une valeur centrale ; la fréquence des valeurs supérieures et inférieures au centre diminue de manière symétrique.

Comment la distribution normale est-elle utilisée ?

De nombreuses méthodes d'analyse statistique supposent que les données suivent une distribution normale. Si ce n'est pas le cas, l'analyse risque d'être erronée.

Puis-je vérifier si mes données sont « normales » ?

Oui, vous pouvez simplement le vérifier visuellement. La plupart des logiciels statistiques effectuent un test statistique formel.

Définition de la distribution normale

Découvrez comment évaluer la normalité à l'aide d'un logiciel statistique

La distribution normale est une distribution théorique des valeurs d'une population qui a une définition mathématique précise. Les valeurs de données qui suivent une distribution normale sont dites « normalement distribuées ». Plutôt que de nous plonger dans des mathématiques complexes, examinons les propriétés utiles de la distribution normale et les raisons pour lesquelles elle est importante dans les analyses.

Tout d'abord, pourquoi s'intéresser à la distribution normale ?

  • De nombreuses mesures sont normalement distribuées, ou presque. C'est le cas, par exemple, de la taille, du poids et de la fréquence cardiaque. Notez que toutes ces données sont mesurées sur une échelle avec de nombreuses valeurs possibles.
  • Les moyennes de nombreuses mesures sont normalement distribuées, ou presque. Par exemple, la durée de votre trajet quotidien peut ne pas être normalement distribuée, mais sa moyenne mensuelle est susceptible de l'être.
  • De nombreuses méthodes statistiques exigent que les données suivent une distribution normale. Dans ce cas, il est précisé que la méthode « suppose que les données sont normalement distribuées » ou « suppose la normalité ».

L'une des premières choses à faire avec un jeu de valeurs de données est d'examiner la forme des données. La distribution normale présente une forme symétrique. Elle est parfois appelée « courbe en cloche », car le graphique ressemble à une cloche posée sur le sol.

La figure 1 ci-dessous montre un histogramme d'un jeu de valeurs de données d'échantillon ainsi qu'une distribution normale théorique (la ligne bleue incurvée). Un histogramme est un type de diagramme en barres qui affiche la fréquence des valeurs de données. Vous pouvez constater que les données ne concordent pas exactement avec la courbe, ce qui est assez courant. D'ailleurs, si les données correspondent exactement à une distribution normale théorique, vous devriez vous poser quelques questions. Il est rare que les données réelles coïncident exactement avec une distribution.

Figure 1 : histogramme de données à peu près normalement distribuées

Résumé des caractéristiques

La distribution normale présente les caractéristiques suivantes :

  1. Elle est entièrement définie par la moyenne et l'écart-type.
  2. La moyenne, la médiane et le mode sont tous identiques.
  3. Elle est symétrique.
  4. Elle affiche une forme de cloche.

Chaque caractéristique est importante et vous renseigne sur vos données. Examinons-les de plus près :

1. Définie par la moyenne et l'écart-type

Nous n'avons besoin que de deux valeurs, la moyenne et l'écart-type, pour tracer une distribution normale spécifique. Pour en savoir plus sur la relation entre la moyenne et l'écart-type dans le cas de données normalement distribuées, lisez la règle empirique.

La moyenne et l'écart-type sont considérés comme les paramètres de la distribution normale. Toutes les distributions disposent de paramètres, et certaines en ont plus de deux. Dans tous les cas, les paramètres définiront une distribution spécifique.

Penchons-nous sur quelques exemples de courbes de distribution normale.

La figure 2 montre deux distributions normales, chacune présentant la même moyenne de 30. La distribution plus étroite et plus haute, représentée en bleu, a un écart-type de 5. La distribution plus large et plus courte, représentée en orange, a un écart-type de 10.

Figure 2 : deux distributions normales avec la même moyenne et des écarts-types différents

La figure 3 montre également deux distributions normales, mais cette fois-ci elles présentent le même écart-type de 5. Celle de gauche, représentée en orange, a une moyenne de 20, tandis que celle de droite, représentée en bleu, a une moyenne de 40.

Figure 3 : deux distributions normales avec des moyennes différentes et le même écart-type

La figure 4 montre à nouveau deux distributions normales. La distribution représentée en orange a une moyenne de 30 et un écart-type de 10. La distribution représentée en bleu a une moyenne de 40 et un écart-type de 5.

Figure 4 : deux distributions normales avec des moyennes et des écarts-types différents

2. Moyenne = médiane = mode

La moyenne, la médiane et le mode sont trois façons de mesurer le centre d'un jeu de valeurs de données. Dans le cas d'une vraie distribution normale, ces trois valeurs sont identiques. En pratique, vos données seront probablement presque normales. La moyenne, la médiane et le mode peuvent très proches, mais pas identiques.

Figure 5 : vraie distribution normale dans laquelle la moyenne, la médiane et le mode sont identiques

3. Symétrique

La distribution normale est symétrique. Si vous pliez le graphique en deux au niveau de la moyenne, chaque côté serait identique.

4. En forme de cloche

La distribution normale a la forme d'une cloche avec une « bosse » centrale, comme on peut le voir dans les exemples ci-dessus.

La figure 6 montre une distribution non normale et présente deux bosses au lieu d'une. Une distribution comportant deux bosses peut indiquer que différents groupes sont représentés dans les données. La fréquence cardiaque, par exemple, est généralement distribuée normalement, mais supposons que, à votre insu, les données contiennent la fréquence cardiaque au repos de deux groupes : les athlètes et les personnes non sportives. Vous pourriez alors obtenir une distribution bimodale comme celle présentée ci-dessous.

Figure 6 : distribution bimodale non normale

Si ce n'est pas normal, est-ce pour autant anormal ?

Si vos données ne sont pas « normales », cela signifie-t-il qu'elles sont anormales ? Non. Cela signifie-t-il qu'elles sont mauvaises ? Non, différents types de données suivront des distributions différentes.

Il existe de nombreuses distributions théoriques possibles. De nombreuses méthodes statistiques exigent que les données suivent une distribution normale. Si ce n'est pas le cas, vous pouvez utiliser d'autres méthodes.

En pratique, vous constaterez que les données sont souvent « presque normales ». Il existe des outils visuels simples pour vérifier si les données sont normalement distribuées, et la plupart des logiciels proposent des tests statistiques formels de normalité. 

Quelles données ne sont pas normalement distribuées ?

  • Lancer d'un dé
  • Pile ou face
  • Contrôle de réussite/échec dans le secteur manufacturier
  • Temps d'attente dans une file
  • Durée de fonctionnement avant défaillance des batteries ou d'autres appareils électroniques
  • Taille des fichiers des vidéos publiées en ligne

Même si ces données ne sont pas normalement distribuées, il existe des méthodes pour les analyser.

Outils visuels pour vérifier la normalité

Histogramme

Comme indiqué ci-dessus, un histogramme est un type particulier de diagramme de fréquence en barres utilisé pour les variables continues. Ce graphique peut vous aider à déterminer si les données suivent ou non une courbe en cloche. Certains logiciels vous permettent également d'ajouter une courbe normale à l'histogramme afin de pouvoir effectuer une comparaison visuelle.

La figure 7 montre un exemple d'histogramme représentant des données qui ne suivent pas une distribution normale. 

Figure 7 : histogramme de données non normales

Lorsque vous utilisez un histogramme pour vérifier visuellement la normalité, regardez si le graphique :

  • Présente des valeurs extrêmes ou non.
  • Suit une courbe symétrique presque identique des deux côtés.
  • Est en forme de cloche ou non.

Comme vous pouvez le constater, la figure 7 présente des valeurs extrêmes, n'est pas symétrique et n'a pas la forme d'une cloche.

Boîte à moustaches

Dans le cas d'une boîte à moustaches représentant une distribution normale, la moyenne est la même que la médiane. Les données ne comportent pas de valeurs extrêmes et sont symétriques.

Observez les boîtes à moustaches des figures 8 et 9 ci-dessous. Les données de la figure 8 se rapprochent d'une distribution normale, alors que les données de la figure 9 suivent une distribution non normale. 

Lorsque vous utilisez une boîte à moustaches pour vérifier visuellement la normalité, regardez si le graphique présente  :

  • Des valeurs extrêmes ou non. Le graphique de la distribution non normale de la figure 9 fait apparaître trois valeurs aberrantes sous forme de points rouges. Le graphique de la distribution presque normale de la figure 8 ne comporte aucune valeur aberrante.
  • Une symétrie ou non. Le graphique de la distribution presque normale de la figure 8 montre une symétrie, contrairement au graphique de la distribution non normale de la figure 9. 
  • Une moyenne et une médiane presque égales. Dans ces boîtes à moustaches, la ligne noire horizontale au centre de la boîte correspond à la médiane et la ligne bleue à la moyenne. Pour la distribution presque normale de la figure 8, la ligne bleue de la moyenne converge presque avec la ligne de la médiane au milieu de la boîte.
Figure 8 : boîte à moustaches représentant une distribution presque normale
Figure 9 : boîte à moustaches représentant des données non normales

Graphique des quantiles normaux

Un graphique des quantiles normaux présente une distribution normale sous la forme d'une ligne droite au lieu d'une courbe en cloche. Si les données sont normales, les valeurs seront proches de la ligne droite. Si les données ne sont pas normales, les valeurs s'éloigneront de la ligne droite. La configuration des données sur le graphique peut vous aider à comprendre pourquoi les données ne sont pas normalement distribuées. 

La figure 10 montre un graphique des quantiles normaux présentant des données qui suivent une distribution normale. Vous pouvez voir que la plupart des valeurs de données se situent près de la ligne rouge continue. Les valeurs de données se trouvent également toutes à l'intérieur des bornes de l'intervalle de confiance en pointillés rouges. 

Les données de la figure 11 ne suivent pas une distribution normale. Certaines valeurs de données sont proches de la ligne rouge continue, mais la plupart d'entre elles ne le sont pas. Certaines valeurs de données se situent en dehors des bornes de l'intervalle de confiance en pointillés rouges. Des valeurs extrêmes apparaissent également en haut à droite. 

Figure 10 : graphique des quantiles normaux représentant des données normalement distribuées.
Figure 11 : graphique des quantiles normaux représentant des données qui ne sont pas normalement distribuées.

La plupart des logiciels de statistique permettent de créer des graphiques des quantiles normaux. Lorsque vous utilisez ce type de graphique pour vérifier la normalité, regardez si les données :

  • Présente des valeurs extrêmes ou non.
  • Suivent en grande partie la ligne qui représente la distribution normale.
  • Se situent majoritairement à l'intérieur des bornes de l'intervalle de confiance. 

Quand utiliser la distribution normale ?

Données continues : OUI

La distribution normale est pertinente pour les données continues puisque celles-ci sont mesurées sur une échelle avec de nombreuses valeurs possibles. Voici quelques exemples de données continues :

  • Âge
  • Pression artérielle
  • Pondération
  • Température
  • Vitesse

Pour tous ces exemples, il est logique d'envisager d'utiliser des méthodes qui supposent une distribution normale. Cependant, n'oubliez pas que les données continues ne suivent pas toutes une distribution normale. Tracez vos données et réfléchissez à ce qu'elles représentent avant d'appliquer une méthode qui suppose la normalité.

Données ordinales ou nominales : NON

La distribution normale n'est pas pertinente pour les données ordinales ou nominales brutes puisque celles-ci sont mesurées sur une échelle avec seulement quelques valeurs possibles.

Avec des données ordinales, l'échantillon est divisé en groupes et les réponses ont souvent un ordre spécifique. Par exemple, dans une enquête où il vous est demandé de donner votre opinion sur une échelle allant de « Pas du tout d'accord » à « Tout à fait d'accord », vos réponses sont ordinales.

Dans le cas des données nominales, l'échantillon est également divisé en groupes, mais il n'y a pas d'ordre particulier. Citons par exemple le sexe biologique et le pays de résidence. Vous pouvez utiliser H pour les hommes et F pour les femmes dans votre échantillon, ou encore 0 et 1. En ce qui concerne les pays, vous pouvez utiliser l'abréviation du pays ou un code numérique. Même si vous utilisez des nombres pour les données, la distribution normale n'est pas pertinente dans cet exemple.

Autres rubriques

Tester la normalité

La plupart des logiciels de statistiques proposent des tests formels de normalité. Ces tests supposent que les données suivent une distribution normale et les utilisent ensuite pour vérifier si cette hypothèse est raisonnable ou non. 

Utiliser une distribution t

La distribution normale est une distribution théorique. Elle est entièrement définie par la moyenne et l'écart-type de la population.

En pratique, il n’est quasiment jamais possible de connaître les valeurs de ces deux statistiques dans une population. 

La distribution t est très similaire à la distribution normale. Elle a recours à la moyenne et à l'écart-type de l'échantillon. Parce qu'elle utilise ces valeurs estimées, il lui faut également un paramètre supplémentaire pour être complètement définie.

Ce paramètre supplémentaire est le degré de liberté, c'est-à-dire la taille de l'échantillon moins 1. Si est la taille de l'échantillon, alors les degrés de liberté sont indiqués par n-1. Pour s'en souvenir, il suffit de se rappeler que la distribution t comporte une sorte de « facteur de correction » dans les degrés de liberté. Ce facteur de correction permet de tenir compte du fait que la distribution est basée sur la moyenne et l'écart-type de l'échantillon, plutôt que sur des valeurs inconnues de la population.