Écart-type

Qu'est-ce que l'écart-type ?

L'écart-type mesure la dispersion d'un jeu de valeurs de données. Un écart-type élevé indique une dispersion large des valeurs de données, tandis qu'un écart-type faible indique un écart restreint de valeurs regroupées autour de la moyenne du jeu de données.

Comment l'écart-type est-il utilisé ?

L'écart-type est utilisé pour étudier la variabilité dans un jeu de valeurs de données. Elle est aussi utilisée conjointement avec la moyenne pour calculer les intervalles statistiques, les statistiques des tests d'hypothèses ainsi que les limites des diagrammes et graphiques.

Quels sont les problèmes à prendre en compte concernant l'écart-type ?

L'écart-type peut être affecté par des valeurs extrêmes et/ou de petits jeux de données. Assurez-vous de considérer l'impact des valeurs aberrantes sur votre analyse. De plus, l'écart-type n'est pertinent que pour les données continues.

L'écart-type décrit la dispersion d'un jeu de données.

Supposons que vous disposiez d'un jeu de valeurs de données et que vous les traciez comme dans les graphiques ci-dessous. L'axe horizontal montre les valeurs de données. L'axe vertical mesure la fréquence de chaque valeur de données. En termes statistiques, il s'agit d'un histogramme, ou d'une distribution, des valeurs de données. L'écart-type est un nombre unique qui estime la dispersion, ou l'étalement, des données.

Figure 1 : Histogramme des valeurs de données avec une large dispersion
Figure 2 : Histogramme des valeurs de données avec une dispersion restreinte

Qu'est-ce que l'écart-type de la population ?

En statistiques, la population est l'ensemble du jeu de données que vous essayez de comprendre et d'interpréter. Dans de nombreux cas, il est impossible de recueillir des données sur chaque élément d'une population, en raison de la taille de cette dernière. Dans ces situations, l'écart-type de la population mesure la dispersion de la population théorique et est presque toujours inconnu.

Prenons un exemple dans lequel nous connaissons la population. Supposons que vous souhaitiez connaître la dispersion des vitesses du vent des ouragans au moment où ils atteignent les côtes depuis 1950. Il s'agit d'une population relativement petite. Étant donné que les données sur le sujet sont facilement accessibles, vous pouvez donc calculer l'écart-type de la population.

Qu'est-ce que l'écart-type d'un échantillon ?

Pour estimer l'écart-type de la population inconnue, vous collectez un échantillon de données. Vous calculez ensuite l'écart-type de cet échantillon, L'écart-type de l'échantillon mesure la dispersion des données de votre échantillon. Il s'agit d'une estimation de l'écart-type de la population.

Quelle est la différence entre l'écart-type et la variance ?

L'écart-type est la racine carrée de la variance. L'écart-type et la variance sont tous deux des indicateurs de dispersion. L'unité de l'écart-type est la même que celles de vos données. Par exemple, si vous mesurez l'âge en années, l'écart-type est également exprimé en années, ce qui explique en partie pourquoi les gens utilisent l'écart-type au lieu de la variance. «' L'âge en années » est plus simple à considérer que « l'âge au carré en années ».

Quelle est la différence entre l'écart-type et le coefficient de variation (CV) ?

Le coefficient de variation, ou CV, est l'écart-type divisé par la moyenne. Le CV est utilisé pour comparer l'écart-type d'ensembles de jeux de données sur une échelle commune. Le CV est utilisé comme indicateur de la précision d'un système de mesure.

Quelles sont les valeurs possibles de l'écart-type ?

L'écart-type est presque toujours une valeur positive. Une exception : si toutes les valeurs de votre jeu de données sont identiques, l'écart-type est égal à zéro. Il n'y a aucune variabilité ou dispersion dans les données.

Comment calculer l'écart-type

Pour calculer l'écart-type de l'échantillon, il faut d'abord en calculer la moyenne. Ensuite, pour chaque valeur de données, trouvez la différence entre la valeur et la moyenne de l'échantillon. Ensuite, élevez ces différences au carré et additionnez-les. Enfin, divisez cette somme par le nombre de valeurs de données moins un pour obtenir la variance de l'échantillon. Pour obtenir l'écart-type, prenez la racine carrée. L'unité de l'écart-type est la même que celles des données.

Prenons un exemple simple pour mieux comprendre ce calcul. Supposons que vous mesuriez la fréquence cardiaque au repos de six personnes. Chez la plupart des gens, elle est comprise entre 60 et 100 battements par minute (bpm). Chez les athlètes, elle peut ne pas dépasser 40 bpm. Une fréquence cardiaque élevée peut être liée à un problème de santé ou peut s'expliquer si elle a été mesurée pendant une activité physique.

Les valeurs que vous avez mesurées sont alors les suivantes :

55
60
65
75
80
85

Tout d'abord, calculez la moyenne de l'échantillon en additionnant les valeurs des données et en divisant par le nombre de valeurs :

$\frac{(55+60+65+75+80+85)}{6} = \frac{420}{6} = 70$

Ensuite, calculez la différence entre chaque valeur de données et la moyenne de l'échantillon :

Différence par rapport à la moyenne
55-70 = -15
60-70 = -10
65-70 = -5
75-70 = 5
80-70 = 10
85-70 = 15

En calculant les différences, vous avez une idée de la distance entre chaque valeur de données et la moyenne de l'échantillon.

Ensuite, élevez les différences au carré. Si vous additionniez simplement les différences, vous obtiendriez zéro, ce qui suggèrerait qu'il n'y avait pas de dispersion dans les données. Or, c'est faux. En mettant les différences au carré avant de les additionner, vous obtenez une mesure positive de la distance par rapport à la moyenne pour les points situés au-dessus et en dessous de la moyenne de l'échantillon.

Différence par rapport à la moyenneDifférence au carré
55-70 = -15225
60-70 = -10100
65-70 = -525
75-70 = 525
80-70 = 10100
85-70 = 15225

Ensuite, prenez la somme des différences au carré :

$225+100+25+25+100+225=700$

Comme il existe six valeurs de données, divisez la somme ci-dessus par 6 — 1 = 5:

$\frac{700}{5} = 140$

Pourquoi ne pas diviser par 6 ? Pour faire simple, la moyenne de l'échantillon a été utilisée dans ces calculs. Si vous connaissez la moyenne de l'échantillon et cinq valeurs de données, vous pouvez calculer le sixième point de données. Cet exemple utilise ce que l'on appelle un degré de liberté pour calculer la moyenne. Statistiquement, lorsque vous divisez par n-1, vous obtenez une estimation non biaisée de la variance.

À ce stade, vous avez déterminé la variance de l'échantillon. Il est exprimé en « battements par minute au carré », une unité difficile à interpréter. La dernière étape consiste donc à prendre la racine carrée pour obtenir l'écart-type de l'échantillon :

$\sqrt{140}=11.8$

Sur la base de l'échantillon de six personnes, la moyenne de l'échantillon est de 70 bpm, avec un écart-type de 11,8 bpm, ce qui est pertinent.

En règle générale, vous utiliserez un logiciel pour calculer l'écart-type de l'échantillon. Voici la formule correspondante :

$\sqrt{\frac{Σ^n_{i=1}(x_i - \overline{x})^2}{n-1}}$

Dans la formule ci-dessus, l'échantillon comporte n valeurs de données. Chaque valeur est représentée par un x. Le symbole x̅ représente la moyenne de l'échantillon. Σ est le symbole de la somme. Dans cette formule, cela signifie que chacune des différences au carré entre une valeur de données et la moyenne de l'échantillon doit être additionnée, comme dans l'exemple.

Écart-type de la population

Dans les rares cas où vous disposez de données pour l'ensemble de la population, le calcul de l'écart-type est légèrement différent de celui d'un échantillon de la population. Pour l'ensemble de la population, la taille de cette dernière est représentée par un N majuscule. La formule est la suivante :

$\sqrt{\frac{Σ^N_{i=1}(x_i - μ)^2}{N}}$

La formule ci-dessus utilise la taille de la population (N) et la moyenne de la population (μ). L'idée derrière la formule est la même que celle permettant de trouver l'écart-type de l'échantillon.

Comprendre l'écart-type

Visualisation de l'écart-type

La Figure 3 ci-dessous illustre le fait que l'écart-type est une estimation de la dispersion des valeurs de données. La ligne centrale montre la moyenne de l'échantillon (70) des six valeurs de fréquence cardiaque de l'exemple précédent. Pour deux des valeurs (65 et 80), le graphique met en évidence le calcul de la différence par rapport à la moyenne.

Vous pouvez constater que les différences sont négatives lorsque la valeur des données est inférieure à la moyenne et positives lorsque la valeur des données est supérieure à la moyenne. En mettant les différences au carré, les différences positives et négatives ne s'annulent pas.

En additionnant toutes les différences au carré, vous obtenez les écarts combinés entre chaque valeur de données et la moyenne. Des sommes plus petites indiquent une dispersion des valeurs de données moindre ; des sommes plus importantes signalent une plus grande dispersion.

Figure 3 : Différence par rapport à la moyenne de l'échantillon pour deux points de données

Interprétation de l'écart-type

La plupart du temps, vous indiquez à la fois la moyenne et l'écart-type. Cela permet de situer l'écart-type dans son contexte.

Des écarts types plus petits indiquent qu'un plus grand nombre de valeurs de données sont proches de la moyenne de l'échantillon. Des écarts types plus importants montrent que les valeurs de vos données sont plus dispersées et que certaines valeurs sont plus éloignées de la moyenne de l'échantillon.

Par exemple, dans la Figure 4 ci-dessous, supposons que la moyenne de votre échantillon de données soit de 13. Lorsque l'écart-type de l'échantillon est de 3, représenté par la ligne orange pleine, vous pouvez voir qu'une plus grande partie des données est proche de la moyenne de l'échantillon. Lorsque l'écart-type de l'échantillon est de 6, représenté par la ligne bleue en pointillés, les données sont alors plus dispersées. Certaines valeurs sont plus éloignées de la moyenne de l'échantillon.

Figure 4 : Les écarts-types plus importants indiquent des données plus éloignées de la moyenne que les écarts-types moindres.

Comment les valeurs de données extrêmes affectent-elles l'écart-type de l'échantillon ?

Les valeurs de données extrêmes peuvent avoir un impact significatif sur l'écart-type de l'échantillon. Continuons avec notre exemple sur la fréquence cardiaque.

Auparavant, nos valeurs de données pour la fréquence cardiaque étaient les suivantes :

55
60
65
75
80
85

La moyenne de l'échantillon est de 70 bpm et l'écart-type de 11,8 bpm.

Supposons que nous disposions maintenant de la fréquence cardiaque d'une personne supplémentaire :

55
60
65
75
80
85
140

Sans revenir sur tous les calculs, nous avons maintenant une moyenne d'échantillon de 80 bpm et un écart-type de 28,6 bpm. Cette seule valeur extrême a eu un effet significatif à la fois sur la moyenne de l'échantillon et sur l'écart-type de l'échantillon.

ATTENTION ! Ne supprimez pas une valeur de données extrême simplement parce qu'elle semble incongrue. Essayez d'abord de savoir si la valeur extrême est due à une quelconque erreur. Si c'est le cas, vous devez essayer de trouver la valeur correcte. Si vous n'arrivez pas à déterminer qu'il s'agit du fruit d'une erreur, vous ne devez pas omettre la valeur extrême. Dans ce cas, vous pouvez décider de présenter votre analyse à la fois avec et sans le point de données douteux.

Pour les données de fréquence cardiaque, la valeur extrême pourrait être la fréquence cardiaque réelle au repos d'une personne. Dans ce cas, vous voudriez la conserver dans les données. Il pourrait également s'agir d'une fréquence cardiaque mesurée immédiatement après une activité physique, ce qui expliquerait sa différence par rapport aux données de fréquence cardiaque au repos. Dans tous les cas, avant de décider quoi faire des valeurs extrêmes, il est important que vous vous penchiez sur leur provenance.

Utiliser des symboles statistiques

Écart-type et variance de la population

L'écart-type de la population est indiqué dans les formules par la lettre grecque « sigma ». Le symbole est σ.

La variance de la population est représentée par σ2.

De nombreuses formules statistiques utilisent σ lors de la définition de tests d'hypothèse ou dans les formules d'analyse.

Rappelez-vous que, la plupart du temps, vous ne connaîtrez pas l'écart-type ou la variance de la population.

Écart-type et variance d'un échantillon

L'écart-type de l'échantillon est indiqué dans les formules par un s italique en minuscule.

La variance de l'échantillon est affichée dans les formules sous la forme s2.

Quand utiliser l'écart-type

Données continues : OUI

Rechercher l'écart-type est pertinent pour les données continues. Celles-ci sont mesurées sur une échelle avec de nombreuses valeurs possibles. Voici quelques exemples de données continues :

  • Âge
  • Pression artérielle
  • Pondération
  • Température
  • Vitesse.

Pour tous ces exemples, il est pertinent de calculer l'écart-type.

Figure 5 : Utilisez l'écart-type avec des données continues.

Données ordinales ou nominales : NON

Tel que défini ici, l'écart-type n'est pas pertinent pour les données ordinales ou nominales. Celles-ci sont mesurées sur une échelle avec un nombre limité de valeurs possibles. Il existe d'autres statistiques qui estiment la dispersion d'un ensemble de valeurs de données ordinales ou nominales.

Les données ordinales sont généralement divisées en groupes avec un ordre spécifique. Par exemple, supposons que vous répondiez à une enquête dans laquelle il vous est demandé de donner votre avis sur une échelle allant de « Pas du tout d'accord » à « Tout à fait d'accord ». Vos réponses sont ordinales (voir la Figure 6 ci-dessous).

Les données nominales divisent également l'échantillon en groupes, mais sans ordre particulier. Citons par exemple le sexe biologique et le pays de résidence (Figure 7). Vous pouvez utiliser H pour les hommes et F pour les femmes dans votre échantillon, ou encore 0 et 1. En ce qui concerne les pays, vous pouvez utiliser l'abréviation du pays ou un code numérique. Si vous utilisez des nombres pour ces données, vous pouvez calculer l'écart-type de l'échantillon, mais cela n'aura aucun sens.

Figure 6 : N'utilisez pas l'écart-type avec les données ordinales.
Figure 7 : N'utilisez pas l'écart-type avec les données nominales.

Autres mesures de la variabilité

L'écart-type est un moyen d'estimer la dispersion de vos données. L'étendue et l'intervalle interquartile (IQR) permettent également d'estimer la dispersion. Contrairement à l'écart-type, aucune de ces statistiques n'implique le milieu des données. Ces statistiques peuvent être utilisées avec de petits ensembles de données (l'étendue) ou des jeux de données asymétriques (IQR). 

Étendue

L'étendue correspond à la différence entre la valeur la plus basse et la valeur la plus élevée de vos données.

Intervalle interquartile (IQR)

L'intervalle interquartile correspond à la différence entre les 25e et 75e percentiles de vos données. L'IQR est donc moins affecté par les valeurs extrêmes que l'étendue ou l'écart-type. Si vos données présentent des valeurs extrêmes ou sont asymétriques, l'IQR peut alors être utile pour décrire la variabilité de votre jeu de données.