Dans l'exemple des céréales, vous avez identifié quelles céréales manger ou éviter de manger pour un régime sain. Vous souhaitez maintenant voir comment les variables de céréales sont liées les unes aux autres. La plate-forme Multivariée vous permet d'observer les modèles et les relations entre les variables. Le rapport d'analyse multivariée vous permet de :
• résumer la force des relations linéaires entre chaque paire de variables de réponse à l'aide du tableau Corrélations
• identifier les dépendances, valeurs aberrantes et clusters à l'aide de la matrice de nuages de points
• utiliser d'autres techniques pour étudier des variables multiples, notamment les corrélations partielles, inverses et par paire, les matrices de covariance et les analyses en composantes principales
Remarque : Pour plus d'informations sur la plate-forme Multivariée, voir Multivariate Methods.
Vous souhaitez voir quelles sont les relations entre les variables, et notamment entre les variables lipides et calories. L'analyse des données dans la plate-forme Multivariée permet de répondre aux questions suivantes :
• Quelles paires de variables sont fortement corrélées ?
• Quelles paires de variables ne sont pas corrélées ?
1. Dans la table de données Cereal.jmp, cliquez sur le triangle du bas situé en haut du panneau Colonnes pour désélectionner les lignes.
Figure 6.6 Désélectionner des lignes
2. Sélectionnez Analyse > Méthodes multivariées > Multivarié.
3. Sélectionnez Calories par Potassium, cliquez sur Y, Colonnes puis sur OK.
Le rapport d'analyse multivariée apparaît. Par défaut, il contient le rapport Corrélations et Matrice de nuages de points. Le rapport Corrélations est une matrice des coefficients de corrélation qui résume la force des relations linéaires entre chaque paire de variables de réponse (Y). Les chiffres sombres indiquent un degré de corrélation plus faible.
Figure 6.7 Rapport Corrélations
Vous remarquerez que :
– Dans la colonne Calories, le nombre de calories est fortement corrélé avec toutes les variables à l'exception des variables sodium et fibres.
– Dans la colonne Fiber, les variables fibres et potassium semblent être fortement corrélées.
– Dans la colonne Sodium, la variable sodium n'est pas fortement corrélée avec les autres variables.
Dans la matrice de nuages de points, les ellipses de densité illustrent encore davantage les relations entre les variables.
Figure 6.8 Portion de la Matrice de nuages de points
Par défaut, chaque nuage de points contient une ellipse de densité normale bivariée à 95 %. En supposant que chaque paire de variables a une distribution normale bivariée, cette ellipse englobe approximativement 95 % des points. Si l'ellipse est plutôt arrondie et n'est pas orientée selon une diagonale, les variables ne sont pas corrélées. Si l'ellipse est allongée et orientée selon une diagonale, les variables sont corrélées.
Vous remarquerez que :
– Les ellipses sont plutôt arrondies dans la ligne Sodium. Cette forme indique que la variable Sodium n'est pas corrélée avec les autres variables.
– Les marqueurs x bleus, qui représentent Nat. Bran Oats & Honey, Cracklin’ Oat Bran et Banana Nut Crunch, apparaissent à l'extérieur des ellipses dans la ligne Fat. Ce positionnement indique que les données sont des valeurs aberrantes (du fait de la teneur en lipides des céréales).
Vous étudierez une matrice de nuages de points plus en détails ultérieurement.
4. Pour afficher le rapport Corrélations par paire, cliquez sur le triangle rouge Multivarié et sélectionnez Corrélations par paire.
Figure 6.9 Portion du rapport Corrélations par paire
Le rapport Corrélations par paire répertorie les corrélations produit-moment de Pearson pour chaque paire de variables Y. Le rapport donne également les p-values et compare les corrélations dans un diagramme en barres.
5. Pour identifier rapidement les paires fortement corrélées, cliquez avec le bouton droit sur le rapport et sélectionnez la case à cocher Trier par colonne, P-value, Ordre croissant, puis cliquez sur OK.
Les paires les plus fortement corrélées apparaissent en haut du rapport. Pour les paires, les petites p-values sont une preuve de corrélation. La corrélation la plus significative est entre Tot Carbo (glucides totaux) et Calories.
Figure 6.10 Petites p-values pour les paires
L'étude des résultats vous permet de répondre aux questions suivantes :
Quelles paires de variables sont fortement corrélées ?
Le rapport Corrélations et la Matrice de nuages de points montrent que le nombre de calories est fortement corrélé avec toutes les variables à l'exception des variables sodium et fibres. Le rapport Corrélations par paire montre que la paire de variables Tot Carbo (glucides totaux) et Calories est la plus corrélée.
Quelles paires de variables ne sont pas corrélées ?
Le rapport Corrélations et la Matrice de nuages de points montrent que la variable Sodium n'est pas corrélée avec les autres variables.
Vous confirmez votre décision d'éviter les céréales 100% Nat. Bran Oats & Honey qui sont riches en lipides. Votre décision d'essayer All-Bran with Extra Fiber et Fiber One était également bonne. Ces deux céréales, riches en fibres, ont également l'avantage d'être plus pauvres en calories, en lipides et en sucres, et d'afficher une teneur en potassium plus élevée. Vous décidez également d'éviter les céréales riches en glucides car elles ont plus de chances d'être riches en calories.