La plate-forme Distribution illustre la distribution d'une seule variable (analyse univariée) à l'aide d'histogrammes, de graphiques supplémentaires et de rapports. Le mot univarié signifie simplement qu'il y a une seule variable, et non deux (bivarié) ou plus encore (multivarié). Vous pouvez cependant examiner la distribution de plusieurs variables individuelles dans un même rapport. Selon que la variable est catégorielle (nominale ou ordinale) ou continue, le contenu du rapport peut varier.
• Pour les variables catégorielles, le graphique initial est un histogramme. L'histogramme affiche une barre pour chaque niveau de la variable ordinale ou nominale. Les rapports affichent les dénombrements et les proportions.
• Pour les variables continues, les graphiques initiaux sont constitués d'un histogramme et d'une boîte à moustaches des valeurs aberrantes. L'histogramme affiche une barre pour les valeurs groupées de la variable continue. Les rapports affichent les quantiles sélectionnés et les statistiques de résumé.
Une fois que vous avez connaissance de la distribution de vos données, vous pouvez prévoir le type d'analyse approprié.
Remarque : Pour plus d'informations sur la plate-forme Distribution, voir Basic Analysis.
Vous souhaitez connaître les valeurs nutritionnelles des céréales afin d'avoir une alimentation plus saine. L'analyse des distributions des données sur les céréales permet de répondre aux questions suivantes :
• Quelles sont les céréales les plus riches en fibres ?
• Quel est le nombre moyen, minimum et maximum de calories ?
• Quelle est la teneur moyenne en lipides ?
• Quelles céréales ont la teneur en lipides la plus élevée ?
• Les données contiennent-elles des valeurs aberrantes ?
1. Choisissez Aide > Bibliothèque d'échantillons de données et ouvrez le fichier Cereal.jmp.
2. Choisissez Analyse > Distribution.
3. Appuyez sur Ctrl et cliquez sur Manufacturer, Calories, Fat et Fiber.
4. Cliquez sur Y, Colonnes puis sur OK.
Figure 6.2 Distributions pour Manufacturer, Calories, Fat et Fiber
Les distributions pour Fiber mettent en évidence ce qui suit :
– Fiber One et All-Bran with Extra Fiber ont les teneurs en fibres les plus élevées, comme le montre la boîte à moustaches Fiber. Ces céréales sont des valeurs aberrantes en termes de teneur en fibres.
Dans le fichier Cereal.jmp, la ligne contenant Fiber One est étiquetée. Dans les graphiques, cette étiquette permet d'afficher le nom des céréales à côté d'un point de données. Pour voir l'étiquette entière, faites glisser la bordure verticale la plus à droite vers la droite. Survolez le point de données non étiqueté pour voir « All Bran with Extra Fiber ».
Les distributions pour Fat mettent en évidence ce qui suit :
– Dans la boîte à moustaches Fat, survolez le point de données supérieur (le marqueur x) pour voir les 100% Nat. Bran Oats & Honey ont la teneur en lipides la plus élevée.
– Dans le rapport des quantiles Fat, la teneur médiane en lipides est de 1 gramme.
Le rapport des quantiles Calories met en évidence ce qui suit :
– Le nombre maximum de calories est de 250.
– Le nombre minimum de calories est de 50.
5. Dans l'histogramme Manufacturer, cliquez sur la barre de Nabisco.
Figure 6.3 Distributions pour les céréales Nabisco
Les distributions Calories, Fat et Fiber pour les céréales Nabisco sont mises en évidence dans les autres histogrammes. Vous pouvez comparer ces distributions avec les distributions calculées pour les données globales. Par exemple, la distribution Fat calculée pour les céréales Nabisco semble être inférieure à celle calculée pour les données globales.
6. Cliquez sous la dernière barre Fiber pour désélectionner toutes les barres.
7. Appuyez sur Maj et, dans l'histogramme Fiber, cliquez sur toutes les barres dont la valeur est supérieure à 8.
Figure 6.4 Céréales riches en fibres
Les céréales les plus riches en fibres sont mises en évidence dans les histogrammes Calories et Fat. La liaison entre les histogrammes permet de voir que certaines céréales riches en fibres sont également pauvres en lipides.
8. Appuyez sur Ctrl et Maj, puis désélectionnez les deux barres de l'histogramme Calories se trouvant à 200 ou s'en rapprochant.
Les céréales hautement caloriques sont supprimées des histogrammes.
Figure 6.5 Céréales riches en fibres et pauvres en calories
Conseil : Laissez le rapport Distributions ouvert. Il vous sera utile lorsque vous réaliserez la classification. Voir Analyser les valeurs similaires dans la plate-forme Classification.
L'étude des résultats vous permet de répondre aux questions suivantes :
Quelles sont les céréales les plus riches en fibres ?
La boîte à moustaches Fiber montre que les céréales All-Bran with Extra Fiber et Fiber One ont la teneur en fibres la plus élevée. Ces deux céréales sont des valeurs aberrantes.
Quel est le nombre moyen, minimum et maximum de calories ?
L'histogramme Calories montre que le nombre de calories va de 50 à 275. Les quantiles Calories montrent que le nombre de calories va de 50 à 250, et que le nombre médian de calories est de 120. La distribution n'est pas uniforme.
Quelle est la teneur moyenne en lipides ?
Le rapport des quantiles Fat montre que la teneur médiane en lipides est de 1 gramme.
Quelles céréales ont la teneur en lipides la plus élevée ?
La boîte à moustaches Fat montre que les céréales 100% Nat. Bran Oats & Honey ont la teneur en lipides la plus élevée. Ces céréales sont une valeur aberrante.
Pour augmenter votre apport en fibres, vous décidez d'essayer All-Bran with Extra Fiber et Fiber One. Ces céréales sont plus faibles en calories et en lipides. La plupart des céréales n'augmentent pas considérablement votre apport en lipides, mais vous prévoyez d'éviter les céréales 100% Nat. Bran Oats & Honey qui sont riches en lipides. Et, bien que la plupart des céréales soient relativement pauvres en lipides, elles ne sont pas nécessairement pauvres en calories.