La classification est une technique multivariée qui regroupe les observations qui partagent des valeurs similaires parmi un certain nombre de variables. La classification hiérarchique combine les lignes en une séquence hiérarchique représentée sous la forme d'une arborescence. Dans l'exemple des céréales, vous voyez que les céréales présentant certaines caractéristiques, telles qu'une forte teneur en fibres, sont regroupées dans des clusters de sorte que vous puissiez en identifier les similitudes.
Remarque : Pour plus d'informations sur la classification hiérarchique, voir Multivariate Methods.
Vous souhaitez savoir quelles céréales sont similaires et quelles céréales sont différentes. L'analyse des clusters des données sur les céréales permet de répondre aux questions suivantes :
• Quel cluster de céréales apporte peu de valeur nutritionnelle ?
• Quel cluster de céréales est riche en vitamines et minéraux, et a une faible teneur en sucres et en lipides ?
• Quel cluster de céréales est riche en fibres et pauvre en calories ?
1. Affichez Cereal.jmp et sélectionnez Analyse > Classification > Classification hiérarchique.
2. Sélectionnez Calories par Enriched, cliquez sur Y, Colonnes puis sur OK.
Le rapport Classification hiérarchique apparaît. Les clusters sont colorés conformément aux états de ligne de la table de données.
Figure 6.11 Portion du rapport Classification hiérarchique
3. Cliquez sur le triangle rouge Classification hiérarchique et sélectionnez Colorier les clusters.
Les clusters sont colorés en fonction de leurs relations dans le dendrogramme.
Figure 6.12 Clusters colorés
Les céréales ont des caractéristiques similaires dans chaque cluster. Par exemple, le nom des céréales du cluster un vous permet de supposer qu'il s'agit de céréales riches en fibres.
Vous remarquerez de quelle façon les céréales All-Bran with Extra Fiber et Fiber One sont regroupées dans le cluster un. Ces céréales ont plus de similitudes que les deux autres céréales du cluster.
Figure 6.13 Céréales similaires dans le cluster un
4. Pour sélectionner le cluster un, cliquez sur la ligne horizontale rouge située à droite.
Les quatre céréales apparaissent en rouge.
Figure 6.14 Sélectionner un cluster
5. Pour voir quelles sont les caractéristiques similaires dans le cluster, cliquez sur le triangle rouge Classification hiérarchique et sélectionnez Résumé de clusters.
Le graphique Résumé de la classification, en bas du rapport, montre la valeur moyenne de chaque variable dans chaque cluster. Par exemple, les céréales de ce cluster contiennent plus de fibres et de potassium que les céréales des autres clusters.
Figure 6.15 Résumé de clusters
6. Cliquez sur le triangle rouge Classification hiérarchique et sélectionnez Matrice de nuages de points.
Cette option est une alternative permettant de créer une matrice de nuages de points dans la plate-forme Multivariée.
Vous remarquerez le graphique Fiber dans la ligne Potassium. Les céréales sélectionnées se trouvent sur le côté droit du graphique, entre 8 et 13 grammes. Cet emplacement indique que les céréales du cluster un sont riches en fibres et en potassium.
Figure 6.16 Caractéristiques du cluster un
Remarque : Les points sont également sélectionnés dans la matrice de nuages de points que vous avez créée précédemment, à la condition que celle-ci soit encore ouverte.
Vous pouvez observer les caractéristiques suivantes en cliquant sur les clusters et en étudiant le rapport Résumé de la classification :
• Les céréales du cluster un, telles que Fiber One et All-Bran, sont riches en fibres et en potassium, et pauvres en calories.
• Les céréales du cluster deux, qui sont les préférées des enfants, sont riches en sucres et pauvres en fibres, en glucides complexes et en protéines.
• Les céréales du cluster trois (Puffed Rice et Puffed Wheat) sont pauvres en calories mais ont une faible valeur nutritionnelle.
• Les céréales du cluster quatre, telles que Total Corn Flakes et Multi-Grain Cheerios, vous apportent 100 % des apports journaliers recommandés en vitamines et minéraux. Elles sont pauvres en lipides, en fibres et en sucres.
• Les céréales du cluster cinq sont riches en protéines et en lipides, et pauvres en sodium. Le cluster comprend des céréales telles que Banana Nut Crunch et Quaker Oatmeal.
• Les céréales du cluster six sont pauvres en lipides, et riches en sodium et en glucides. Les céréales traditionnelles telles que Wheaties et Grape-Nuts se trouvent dans ce cluster.
• Les céréales du cluster sept sont riches en calories et pauvres en fibres. Bon nombre de céréales contenant des fruits secs se trouvent dans ce cluster (Mueslix Healthy Choice, Low Fat Granola w Raisins, Oatmeal Raisin Crisp, Raisin Nut Bran, et Just Right Fruit & Nut).
• Les céréales du cluster huit sont pauvres en sodium et en sucres, et riches en glucides complexes, en protéines et en potassium. Les céréales Shredded Wheat et Mini-Wheat se trouvent dans ce cluster.
En observant les regroupements dans le dendrogramme, vous pouvez voir quelles sont, dans chaque cluster, les céréales les plus similaires.
• Dans le cluster un, Fiber One est similaire à All-Bran with Extra Fiber en termes de valeur nutritionnelle. 100% Bran et All-Bran sont également similaires. Chaque paire de céréales similaires contient des céréales fabriquées par des entreprises différentes, qui sont donc concurrentes.
• Dans le cluster deux, Frosted Flakes et Honey Frosted Wheaties sont similaires, même s'il s'agit de flocons de maïs pour les unes et de flocons de blé pour les autres. Lucky Charms et Frosted Cheerios sont similaires. Cap’n’Crunch et Trix sont elles-aussi similaires.
Conformément à votre souhait de manger plus de fibres et de réduire votre apport calorique, vous décidez d'essayer les céréales du cluster un. Vous éviterez les céréales du cluster trois, qui sont composées de blé et de riz soufflés et qui ont une faible valeur nutritionnelle. Et, vous essaierez les céréales hautement nutritives du cluster quatre.