Boîte à moustaches
Qu'est-ce qu'une boîte à moustaches ?
Une boîte à moustaches montre la distribution des données pour une variable continue.
Comment les boîtes à moustaches sont-elles utilisées ?
Les boîtes à moustaches vous aident à voir le centre et la distribution des données. Vous pouvez également les utiliser comme un outil visuel pour vérifier la normalité ou pour identifier des points qui peuvent être des valeurs aberrantes.
Est-ce qu'une boîte à moustaches est la même chose qu'un diagramme en boîte ?
Tout à fait. Les boîtes à moustaches sont également appelées boîtes à moustaches des valeurs aberrantes ou boîtes à moustaches des quantiles.Il s'agit de variations concernant la manière dont la boîte à moustache est tracée.
Quels sont les problèmes à prendre en compte ?
Lorsque vous utilisez une boîte à moustaches, recherchez les valeurs extrêmes dans vos données. Soyez vigilants si vous avez un jeu de données très petit. Si vous avez des variables catégorielles ou nominales, utilisez plutôt un diagramme en barres.
Les boîtes à moustaches montrent la distribution des données
Le terme « boîte à moustaches » se réfère à une boîte à moustaches des valeurs aberrantes. Cette boîte est également appelée diagramme en boîte ou boîte de Tukey. Reportez-vous à la section « Comparer les boîtes à moustaches des valeurs aberrantes et des quantiles » ci-dessous pour un autre type de boîte à moustaches.
Voici les parties principales d'une boîte à moustaches :
- La ligne centrale dans la boîte indique la médiane des données. La moitié des données est supérieure à cette valeur et l'autre moitié est inférieure. Si les données sont symétriques, la médiane sera au centre de la boîte. Si les données sont dissymétriques, la médiane sera plus proche du haut ou du bas de la boîte.
- Le bas et le haut de la boîte montre les 25e et 75e quantiles ou centiles. Ces deux quantiles sont également appelés quartiles car chacun coupe un quart (25 %) des données. La longueur de la boîte est la différence entre ces deux centiles et elle est appelée intervalle interquartile (IQR).
- Les lignes qui s'étendent de la boîte sont appelées moustaches. Les moustaches représentent la variation attendue des données. Les moustaches étendent 1,5 fois l'IQR du haut et du bas de la boîte. Si les données ne s'étendent pas jusqu'à l'extrémité des moustaches, alors les moustaches s'étendent jusqu'aux valeurs de données minimales et maximales. Si des valeurs tombent au-dessus ou au-dessous de l'extrémité des moustaches, elles sont représentées sous forme de points. Ces points sont souvent appelés des valeurs aberrantes. Une valeur aberrante est plus extrême que la valeur attendue. Ces points de données méritent la peine d'être examinés pour déterminer s'il s'agit de valeurs aberrantes ou d'erreurs. Les moustaches n'incluront pas ces valeurs aberrantes.
La Figure 1 montre une boîte à moustaches :
La médiane est proche du milieu de la boîte dans le graphique de la Figure 1, ce qui nous indique que les valeurs des données sont à peu près symétriques. Voir la Figure 4 ci-dessous pour les données lorsque ce n'est pas le cas.
Comparer la boîte à moustaches des valeurs aberrantes à celle des quantiles
La boîte à moustaches des valeurs aberrantes et celle des quantiles montrent la médiane, les 25e et 75e centiles. Le 25e centile est également le 25e quantile, ce qui signifie que 25 % des données sont inférieures au 25e quantile. Une boîte à moustaches des quantiles ajoute les 2,5e, 10e, 90e et 97,5e quantiles pour la boîte à moustaches des valeurs aberrantes. La Figure 2 montre la boîte à moustaches des quantiles et des valeurs aberrantes pour les mêmes données.
Comparer des boîtes à moustaches et des histogrammes
Les boîtes à moustaches et les histogrammes montrent tous deux la forme de vos données. Les deux peuvent être utilisés pour identifier des points inhabituels ou des valeurs aberrantes. La Figure 3 montre une boîte à moustaches des valeurs aberrantes et un histogramme pour le même jeu de données. Dans cet exemple, l'histogramme est vertical plutôt qu'horizontal.
Il pourrait s'avérer utile d'employer les deux types de graphiques avec vos données. La boîte à moustaches vous aide à voir le coefficient de dissymétrie car la ligne de la médiane ne sera pas proche du centre de la boîte si les données sont dissymétriques. La boîte à moustache identifie les 25e et le 75e centiles mieux qu'un histogramme, tandis que l'histogramme vous permet de voir la forme globale de vos données mieux qu'une boîte à moustaches.
Comment puis-je créer des boîtes à moustaches ?
Par le passé, les boîtes à moustaches étaient créées manuellement. Aujourd'hui, la plupart des personnes utilisent un logiciel pour créer des boîtes à moustaches, évitant ainsi l'arithmétique manuelle et les erreurs qui s'ensuivent. Une boîte à moustache est basée sur ce que l'on appelle un résumé à cinq nombres, qui est le minimum, le 25e centile, la médiane, le 75e centile et les valeurs maximales d'un jeu de données. Avec ces cinq nombres, vous pouvez créer une boîte à moustaches, ce qui signifie qu'avec n'importe quel jeu de données, vous pouvez générer une boîte à moustaches en cinq étapes :
- Calculez la médiane, les 25e et 75e centiles.
- Calculez l'intervalle interquartile (IQR) comme la différence entre les 75e et 25e centiles.
- Calculez la longueur maximale des moustaches en multipliant l'IQR par 1,5.
- Identifiez les valeurs aberrantes.
- Utilisez les statistiques calculées pour représenter les résultats et dessiner une boîte à moustaches.
Exemple de boîte à moustaches
Les données caloriques des céréales dans la boîte à moustaches ci-dessous montrent les résultats de la mesure des calories par portion pour 76 types de céréales. La variable Calories est continue, donc une boîte à moustaches est pertinente dans ce cas.
Ces données sont dissymétriques puisque la médiane de 102 est plus proche du 25e centile de 101 que du 75e centile de 200.
Ajouter la moyenne à la boîte à moustaches
Vous pouvez améliorer la boîte à moustaches en fonction du logiciel que vous utilisez. JMP peut ajouter un losange des moyennes, comme sur la Figure 5. Le haut et le bas du losange sont un intervalle de confiance de 95 % pour la moyenne. Le milieu du losange est la moyenne de l'échantillon, qui est une estimation de la moyenne de la population.
Pour les données caloriques des céréales, la moyenne est plus haute que la médiane. La différence entre la moyenne et la médiane vous indique que ces donnés sont dissymétriques et qu'elles ne proviennent probablement pas d'une distribution normale.
Avec JMP, vous pouvez également ajouter des fonctionnalités aux graphiques. La boîte à moustaches dans la Figure 6 montre une ligne verte épaisse ajoutée au milieu du losange des moyennes, qui aide à montrer la différence entre la moyenne et la médiane.
JMP fournit également des outils d'annotation, comme montré dans la Figure 7 :
Ce graphique résume les statistiques de base pour les calories et affiche la distribution des données. Il met en évidence le fait que les données sont dissymétriques et qu'elles ne proviennent pas d'une distribution normale.
La boîte à moustaches met en évidence les valeurs aberrantes
La boîte à moustache vous aide à identifier les points de données d'intérêt ou les valeurs aberrantes. Ces valeurs sont tracées comme des points de données et tombent au-delà des moustaches. La Figure 8 montre une boîte à moustache qui contient trois valeurs aberrantes montrées comme des points rouges au-dessus de la moustache supérieure. Ces trois points font plus de 1,5 fois le IQR. Les points qui sont à plus de 1,5 fois l'IQR se trouvent au-delà de l'étendue attendue de variation des données.
Les valeurs aberrantes affectent la moyenne, la médiane et les autres centiles. Comme les points extrêmes sont mis en évidence dans la boîte à moustaches, vous pouvez aisément identifier les points de données pour les besoins d'enquête. Vous pourriez trouver que les valeurs aberrantes sont des erreurs dans vos données ou vous pourriez trouver qu'elles ne sont pas inhabituelles pour une autre raison. Par exemple, si les trois valeurs aberrantes dans la Figure 8 se trouvent en dehors de l'étendue de valeurs, vous devrez déterminer s'il s'agit de points de données valides ou pas.
Exemple de boîte à moustaches pour les groupes
Si vos données ont des groupes, vous pourriez en apprendre davantage sur les données en créant des boîtes à moustaches alignées côte à côte, fournissant ainsi un outil simple mais puissant pour comparer les groupes.
Une manière de mesurer la forme physique des personnes consiste à mesurer leur indice de masse grasse. La plupart des recommandations distinguent l'indice de masse grasse des hommes de celui des femmes. (Pour en savoir plus sur ces données, voir la page test de Student à deux échantillons .) La variable Masse grasse est continue. Ainsi, une boîte à moustaches est une méthode appropriée pour afficher la distribution des données. La Figure 9 montre des boîtes à moustaches séparées pour les hommes et les femmes.
Dans ce graphique, vous pouvez constater que la masse grasse médiane des hommes est inférieure à celle des femmes. Vous pouvez également constater que les étendues pour les hommes et les femmes se superposent. Le coefficient de dissymétrie des données pour les hommes est plus élevé que celui des femmes. Aucun des groupes n'a de valeurs aberrantes. Avec JMP, vous pouvez également ajouter des losanges des moyennes, une ligne pour chaque moyenne ainsi que des annotations aux boîtes à moustaches.
L'utilisation de boîtes à moustaches séparées et alignées côte à côte pour les groupes permet de montrer des différences de groupes et d'identifier les valeurs aberrantes.
Boîtes à moustaches et types de données
Données continues : appropriées pour les boîtes à moustaches
Les histogrammes conviennent aux données continues puisque celles-ci sont mesurées sur une échelle avec de nombreuses valeurs possibles Voici quelques exemples de données continues :
- Âge
- Pression artérielle
- Pondération
- Température
- Vitesse
Pour tous ces exemples, une boîte à moustaches constitue un outil graphique approprié pour explorer la distribution des données.
Données catégorielles ou nominales : utiliser des diagrammes en barres
Les boîtes à moustaches ne conviennent pas pour les données catégorielles ou nominales puisqu'elles sont mesurées sur une échelle avec des valeurs spécifiques. Utilisez plutôt des diagrammes en barre.
Avec des données catégorielles, l'échantillon est souvent divisé en groupes et les réponses peuvent avoir un ordre défini. Par exemple, dans une enquête où il vous est demandé de donner votre opinion sur une échelle allant de « Pas du tout d'accord » à « Tout à fait d'accord », vos réponses sont catégorielles.
Avec les données nominales, l'échantillon est également divisé en groupes mais sans ordre particulier. Le pays de résidence est un exemple de variable nominale. Vous pouvez utiliser l'abréviation du pays ou vous pouvez utiliser des nombres afin de coder le nom du pays. Dans tous les cas, vous nommez tout simplement les différents groupes de données.