Nuage de points
Qu'est-ce qu'un nuage de points ?
Un nuage de points montre la relation entre deux variables continues.
Comment utilise-t-on les nuages de points ?
On utilise les nuages de points pour montrer des relations. Pour la corrélation, les nuages de points montrent la force de la relation linéaire entre deux variables. Pour la régression, une ligne ajustée est souvent ajoutée aux nuages de points. En contrôle qualité, les nuages de points comprennent souvent des limites de spécification ou des droites de référence.
Les nuages de points montrent des relations
Les nuages de points montrent la relation entre deux variables continues en plaçant une variable sur l'axe X et une autre sur l'axe Y.
Un nuage de points de régression comprend la variable de réponse sur l'axe Y et la variable d'entrée sur l'axe X.
Exemples de nuages de points
Exemple 1 : relation croissante
Le nuage de points de la figure 1 montre une relation croissante. L'axe X représente le nombre d'employés d'une entreprise et l'axe Y le profit de cette entreprise. Le nuage de points montre que le profit augmente en même temps que le nombre d'employés. Les entreprises ayant le moins d'employés (à gauche du graphique) enregistrent le plus petit profit et les entreprises ayant le plus d'employés le plus grand profit. Il s'agit d'un exemple très simple car de nombreuses variables peuvent influer sur le profit d'une entreprise.
Exemple 2 : relation décroissante
Le nuage de points de la figure 2 montre une relation décroissante. L'axe X représente la teneur en sodium (en grammes) d'un type de viande transformée et l'axe Y le coût par kilogramme de protéines. Le nuage de points révèle qu'au fur et à mesure que le taux de sodium augmente, le coût des protéines diminue. La viande ayant la plus faible teneur en sodium (à gauche du graphique) a un coût plus élevé, et la viande ayant la plus haute teneur en sodium un coût plus faible. Cela est logique puisqu'on peut ajouter du sel à la viande de moins bonne qualité (et donc la moins chère) pour améliorer son goût, ce qui augmente la teneur en sodium.
Exemple 3 : aucune relation
Le nuage de points de la figure 3 montre l'absence de relation entre deux variables. L'axe X montre la charge de prélavage d'un tissu denim et l'axe Y l'usure des fils mesurée. Le graphique montre un nuage de points aléatoire. Certains pourraient voir une légère diminution de l'usure des fils avec l'augmentation de la charge sur le côté droit du graphique, mais nous pouvons utiliser une régression linaire simple pour vérifier cette idée.
Exemple 4 : relation courbe
Le nuage de points de la figure 4 montre une relation courbe entre deux variables. L'axe X représente le taux de natalité d'un groupe de pays et l'axe Y le taux de mortalité. Le nuage de points montre une relation décroissante jusqu'à un taux de natalité compris entre 25 et 30. Ensuite, la relation devient croissante.
Exemple 5 : valeurs aberrantes dans des nuages de points
Les points inhabituels, ou valeurs aberrantes, des données ressortent dans les nuages de points.
La figure 5 montre un nuage de points comportant une valeur aberrante, tandis que la figure 6 montre les mêmes données sans la valeur aberrante. L'unique valeur aberrante, située dans le coin supérieur droit, influe sur votre capacité à visualiser les données dans le nuage de points. Lorsqu'un nuage de points présente un point de données inhabituel, vous pouvez enquêter sur la raison de cette valeur aberrante. Vous voudrez peut-être afficher les données avec et sans cette valeur aberrante.
Personnalisation des nuages de points
Vous pouvez utiliser des couleurs et des marqueurs pour ajouter des détails relatifs à d'autres variables dans un nuage de points, ainsi que des droites de référence pour indiquer notamment des limites de spécification.
Utilisation de couleurs et de marqueurs
La figure 7 montre un nuage de points Poids/puissance concernant 116 modèles de voitures.
Sur le graphique élémentaire, nous voyons une relation croissante. Les voitures les plus lourdes sont les plus puissantes et les voitures les plus légères les moins puissantes.
Les pays d'origine indiqués pour les voitures sont États-Unis, Japon ou Autre, et les types de voiture sont Sportive, Compacte, Petite, Moyenne ou Grande. Le nuage de points élémentaire peut être accentué avec des couleurs et des marqueurs pour ces deux variables.
Dans le nuage de points de la figure 8, des couleurs permettent de distinguer les points de données selon le pays d'origine.
On peut facilement voir que les voitures dont la puissance est supérieure à 225 chevaux viennent du Japon ou des États-Unis. Aucune voiture américaine ne compte parmi les moins puissantes.
Il est également possible d'ajouter différents marqueurs selon le type de voiture.
Les voitures dont la puissance est supérieure ou égale à 200 chevaux appartiennent aux catégories Moyenne ou Sportive, comme le montrent les carrés et les cercles. Les voitures les moins puissantes sont toutes petites, comme le montrent les triangles pointant vers le haut. La voiture la plus lourde de toutes est une grosse voiture fabriquée aux États-Unis, comme le montre le losange vert situé près du haut du graphique. En revanche, cette voiture est de puissance moyenne.
Avec vos données, vous pouvez utiliser des couleurs, des marqueurs ou les deux pour ajouter des dimensions à un nuage de points.
Ajout de droites de référence
Il peut être utile d'ajouter des droites de référence à un nuage de points. Supposons que nous ayons besoin de savoir quelles voitures ne peuvent pas traverser un vieux pont en bois dont la limite de poids est de 4 000 livres (1 814 kg). Le nuage de points de la figure 10 intègre maintenant une droite de référence avec une annotation expliquant sa pertinence.
La figure 11 montre le même nuage de points, mais avec des étiquettes pour les quatre voitures qui ne peuvent pas traverser le vieux pont.
Ajout de limites de spécification
Il existe des limites de spécification pour les variables dans de nombreuses situations. En utilisant les données sur la viande de la figure 2, un acheteur de cantine scolaire doit acheter de la viande ayant une teneur minimale en sodium de 300 g, une teneur cible de 450 g et une teneur maximale de 600 g. La figure 12 montre un nuage de points intégrant ces limites de spécification.
Avec l'ajout de ces lignes, on voit maintenant facilement que quatre types de viande transformée ne peuvent pas être achetés pour la cantine scolaire. Il est possible d'ajouter des étiquettes et couleurs à ces points, comme sur la figure 13, pour fournir plus de détails. L'acheteur peut partager ce graphique pour expliquer pourquoi certaines viandes ne sont pas conformes.
matrice de graphiques de nuages de points
Une matrice de nuages de points peut montrer la relation entre plusieurs variables. Après la création de graphiques pour toutes les combinaisons à deux facteurs des variables, la matrice peut afficher les relations entre ces variables pour mettre en évidence les relations susceptibles d'être importantes. La matrice peut également repérer les valeurs aberrantes dans plusieurs nuages de points.
La figure 14 montre une matrice de nuages de points pour les données relatives à différents modèles de voitures. Les nuages de points utilisent les mêmes couleurs et marqueurs que ceux des figures 9 à 11. Le premier nuage de points de la colonne située la plus à gauche montre la relation entre le poids et le rayon de braquage. Les triangles supérieur et inférieur de la matrice sont des miroirs l'un de l'autre.
La matrice montre que toutes les combinaisons de variables à deux facteurs ont une relation croissante.
Avec JMP, il est possible d'ajouter des informations supplémentaires à la matrice de nuages de points, dont des histogrammes pour chaque variable se trouvant sur la diagonale. On peut également remplacer les nuages de points du triangle supérieur par la corrélation entre chaque paire de variables. La matrice de nuages de points de la figure 15 montre ces personnalisations. La légende de droite comporte une carte thermique des corrélations, le rouge foncé indiquant une forte relation positive entre les combinaisons de variables à deux facteurs.
Cette matrice affiche également les valeurs aberrantes possibles dans l'histogramme relatif à la cylindrée.
Avec JMP, vous pouvez ajouter encore plus d'informations à la matrice, telles que des ellipses de densité pour chaque nuage de points afin de voir les valeurs aberrantes en plusieurs dimensions. Sur la figure 16, on voit que la sélection d'une valeur aberrante dans un nuage de points permet de la mettre en évidence dans tous les autres nuages de points.
La matrice de nuages de points de la figure 16 affiche des ellipses de densité dans chaque nuage de points. Les cercles rouges contiennent environ 95 % des données. Il est possible d'explorer les points situés à l'extérieur des cercles pour voir s'il s'agit de valeurs aberrantes multivariées. Dans la figure 16, on a sélectionné le cercle bleu unique constituant une valeur aberrante dans le nuage de points Poids/rayon de braquage. Ce point est également une valeur aberrante dans certains des autres nuages de points, mais pas dans tous. Dans le nuage de points Cylindrée/puissance, ce point est mis en évidence au milieu de l'ellipse de densité.
En désélectionnant ce point, tous les points apparaîtront avec la même intensité, comme sur la figure 17. À partir de l'ellipse de densité du nuage de points Cylindrée/puissance, la raison des valeurs aberrantes possibles apparaît dans l'histogramme relatif à la cylindrée. Plusieurs points se trouvent à l'extérieur de l'ellipse, à droite du nuage de points. Les couleurs indiquent que tous ces points correspondent à des voitures fabriquées aux États-Unis, tandis que les marqueurs révèlent que les voitures sont sportives, moyennes ou grandes. Les annotations expliquant les couleurs et les marqueurs pourraient améliorer la matrice.
Pour vos données, vous pouvez utiliser une matrice de nuages de points afin d'étudier plusieurs variables à la fois.
Nuages de points et types de données
Données continues : appropriées pour les nuages de points
Les nuages de points conviennent aux données continues puisque celles-ci sont mesurées sur une échelle avec de nombreuses valeurs possibles. Voici quelques exemples de données continues :
- Âge
- Pression artérielle
- Pondération
- Température
- Vitesse
Données catégorielles ou nominales : utiliser des diagrammes en barres
Les nuages de points ne se prêtent pas bien aux données catégorielles ou nominales car celles-ci sont mesurées sur une échelle avec des valeurs spécifiques. Utilisez plutôt des diagrammes en barres.
Avec des données catégorielles, l'échantillon est divisé en groupes et les réponses peuvent avoir un ordre défini. Par exemple, dans une enquête où il vous est demandé de donner votre opinion sur une échelle allant de « Pas du tout d'accord » à « Tout à fait d'accord », vos réponses sont catégorielles.
Pour des données nominales, l'échantillon est également divisé en groupes, mais il n'y a pas d'ordre particulier. Le pays de résidence est un exemple de variable nominale. Vous pouvez utiliser l'abréviation du pays ou vous pouvez utiliser des nombres afin de coder le nom du pays. Dans tous les cas, vous nommez tout simplement les différents groupes de données.
Vous pouvez utiliser des variables catégorielles ou nominales pour personnaliser un nuage de points. Vous pouvez attribuer différents marqueurs ou couleurs aux niveaux de ces variables.