La représentation graphique (ou visualisation) des données est une étape importante de toute analyse de données. Elle devrait toujours précéder les tests statistiques ou la création de modèles. Pour comprendre l’importance des graphiques, suivez les étapes de l'exemple suivant :
1. Choisissez Aide > Bibliothèque d'échantillons de données et ouvrez le fichier Anscombe.jmp (F. J. Anscombe (1973), American Statistician, 27, 17-21).
Ces données se composent de quatre paires de variables X et Y.
2. Dans le panneau Table, cliquez sur le triangle vert situé à côté du script The Quartet.
Le script crée une régression linéaire simple sur chaque paire de variables en utilisant Ajuster Y en fonction de X. L’option Afficher les points est désactivée, de sorte qu'aucune donnée n'est visible dans les nuages de points. La Figure 5.2 illustre pour chaque régression l'ajustement du modèle ainsi que d’autres informations récapitulatives.
Figure 5.2 Quatre modèles
Vous remarquerez que les quatre modèles et les valeurs de R carré sont presque identiques. Dans chaque cas, le modèle ajusté indique à peu de choses près que Y = 3 + 0,5X, et que la valeur de R carré est 0,66. Si votre analyse n’avait pris en compte que les informations récapitulatives ci-dessus, vous en auriez probablement conclu que la relation entre X et Y était la même dans chaque cas. Cependant, à ce stade, vous n’avez pas encore visualisé vos données. Votre conclusion pourrait être erronée.
1. Appuyez sur Ctrl.
2. Cliquez sur le triangle rouge situé en regard de l'un des ajustements bivariés et sélectionnez Afficher les points.
Figure 5.3 Nuages de points affichant avec les points
Les nuages de points indiquent que la relation entre X et Y n’est pas la même pour les quatre paires, même si les lignes décrivant les relations sont les mêmes :
• Le graphique 1 représente une relation linéaire.
• Le graphique 2 représente une relation non-linéaire.
• Le graphique 3 représente une relation linéaire, sauf pour une valeur aberrante.
• Dans le graphique 4, tous les points correspondent à x = 8, sauf un.
Cet exemple montre la limite des conclusions uniquement basées sur les statistiques. L'exploration visuelle des données devrait être l'une des étapes préliminaires de toute analyse.