Vue d'ensemble > Exemple d'exploration des données dans de multiples plates-formes > Analyser les modèles et les relations dans la plate-forme Multivariée
Date de parution : 04/15/2024

Analyser les modèles et les relations dans la plate-forme Multivariée

Dans l'exemple des céréales, vous avez identifié quelles céréales manger ou éviter de manger pour un régime sain. Vous souhaitez maintenant voir comment les variables de céréales sont liées les unes aux autres. La plate-forme Multivariée vous permet d'observer les modèles et les relations entre les variables. Le rapport d'analyse multivariée vous permet de :

résumer la force des relations linéaires entre chaque paire de variables de réponse à l'aide du tableau Corrélations

identifier les dépendances, valeurs aberrantes et clusters à l'aide de la matrice de nuages de points

utiliser d'autres techniques pour étudier des variables multiples, notamment les corrélations partielles, inverses et par paire, les matrices de covariance et les analyses en composantes principales

Remarque : Pour plus d'informations sur la plate-forme Multivariée, voir Multivariate Methods.

Scénario

Vous souhaitez voir quelles sont les relations entre les variables, et notamment entre les variables lipides et calories. L'analyse des données dans la plate-forme Multivariée permet de répondre aux questions suivantes :

Quelles paires de variables sont fortement corrélées ?

Quelles paires de variables ne sont pas corrélées ?

Créer le rapport d'analyse multivariée

1. Dans la table de données Cereal.jmp, cliquez sur le triangle du bas situé en haut du panneau Colonnes pour désélectionner les lignes.

Figure 6.6 Désélectionner des lignes 

Deselecting Rows

2. Sélectionnez Analyse > Méthodes multivariées > Multivarié.

3. Sélectionnez Calories par Potassium, cliquez sur Y, Colonnes puis sur OK.

Le rapport d'analyse multivariée apparaît. Par défaut, il contient le rapport Corrélations et Matrice de nuages de points. Le rapport Corrélations est une matrice des coefficients de corrélation qui résume la force des relations linéaires entre chaque paire de variables de réponse (Y). Les chiffres sombres indiquent un degré de corrélation plus faible.

Figure 6.7 Rapport Corrélations 

Correlations Report

Vous remarquerez que :

Dans la colonne Calories, le nombre de calories est fortement corrélé avec toutes les variables à l'exception des variables sodium et fibres.

Dans la colonne Fiber, les variables fibres et potassium semblent être fortement corrélées.

Dans la colonne Sodium, la variable sodium n'est pas fortement corrélée avec les autres variables.

Dans la matrice de nuages de points, les ellipses de densité illustrent encore davantage les relations entre les variables.

4. À partir du triangle rouge de la matrice de graphiques de nuages de points, sélectionnez Ellipses de densité. Cela permet d'afficher une ellipse de densité normale bivariée à 95 % dans chaque nuage de points.

Figure 6.8 Portion de la Matrice de nuages de points 

Portion of the Scatterplot Matrix

En supposant que chaque paire de variables a une distribution normale bivariée, l'ellipse de densité englobe approximativement 95 % des points. Si l'ellipse est plutôt arrondie et n'est pas orientée selon une diagonale, les variables ne sont pas corrélées. Si l'ellipse est allongée et orientée selon une diagonale, les variables sont corrélées.

Vous remarquerez que :

Les ellipses sont plutôt arrondies dans la ligne Sodium. Cette forme indique que la variable Sodium n'est pas corrélée avec les autres variables.

Les marqueurs x bleus, qui représentent Nat. Bran Oats & Honey, Cracklin’ Oat Bran et Banana Nut Crunch, apparaissent à l'extérieur des ellipses dans la ligne Fat. Ce positionnement indique que les données sont des valeurs aberrantes (du fait de la teneur en lipides des céréales).

Vous étudierez une matrice de nuages de points plus en détails ultérieurement.

5. Pour afficher le rapport Corrélations par paire, cliquez sur le triangle rouge Multivarié et sélectionnez Corrélations par paire.

Figure 6.9 Portion du rapport Corrélations par paire 

Portion of the Pairwise Correlations Report

Le rapport Corrélations par paire répertorie les corrélations produit-moment de Pearson pour chaque paire de variables Y. Le rapport donne également les p-values et compare les corrélations dans un diagramme en barres.

6. Pour identifier rapidement les paires fortement corrélées, cliquez avec le bouton droit sur le rapport et sélectionnez la case à cocher Trier par colonne, P-value, Ordre croissant, puis cliquez sur OK.

Les paires les plus fortement corrélées apparaissent en haut du rapport. Pour les paires, les petites p-values sont une preuve de corrélation. La corrélation la plus significative est entre Tot Carbo (glucides totaux) et Calories.

Figure 6.10 Petites p-values pour les paires 

Small p-values for Pairs

Interpréter les résultats

L'étude des résultats vous permet de répondre aux questions suivantes :

Quelles paires de variables sont fortement corrélées ?

Le rapport Corrélations et la Matrice de nuages de points montrent que le nombre de calories est fortement corrélé avec toutes les variables à l'exception des variables sodium et fibres. Le rapport Corrélations par paire montre que la paire de variables Tot Carbo (glucides totaux) et Calories est la plus corrélée.

Quelles paires de variables ne sont pas corrélées ?

Le rapport Corrélations et la Matrice de nuages de points montrent que la variable Sodium n'est pas corrélée avec les autres variables.

Tirer les conclusions

Vous confirmez votre décision d'éviter les céréales 100% Nat. Bran Oats & Honey qui sont riches en lipides. Votre décision d'essayer All-Bran with Extra Fiber et Fiber One était également bonne. Ces deux céréales, riches en fibres, ont également l'avantage d'être plus pauvres en calories, en lipides et en sucres, et d'afficher une teneur en potassium plus élevée. Vous décidez également d'éviter les céréales riches en glucides car elles ont plus de chances d'être riches en calories.

Vous voulez plus d'informations ? Avoir des questions? Obtenez des réponses dans la communauté d'utilisateurs JMP (community.jmp.com).