Die graphische Darstellung oder Visualisierung Ihrer Daten ist für jede Datenanalyse von besonderer Bedeutung und muss systematisch erfolgen, bevor statistische Tests durchgeführt oder Modelle erstellt werden. Folgendes Beispiel veranschaulicht, warum die Datenvisualisierung ein früher Schritt in Ihrem Datenanalyseprozess sein sollte:
1. Wählen Sie Hilfe > Beispieldatenordner und öffnen Sie Anscombe.jmp (F. J. Anscombe (1973), American Statistician, 27, 17-21).
Diese Daten bestehen aus vier Paaren von X- und Y-Variablen.
2. Klicken Sie im Tabellenbereich auf das grüne Dreieck neben dem Skript The Quartet.
Das Skript erstellt eine einfache lineare Regression für jedes Variablenpaar mit Y nach X anpassen. Die Option Punkte anzeigen ist deaktiviert, sodass in den Streudiagrammen keine Daten zu sehen sind. Abbildung 5.2 zeigt die Modellanpassung und andere zusammenfassende Informationen für jede Regression.
Abbildung 5.2 Vier Modelle
Beachten Sie, dass alle vier Modelle und die r2-Werte fast identisch sind. Das angepasste Modell ist für jedes Variablenpaar in etwaY = 3 + 0,5X und der r2-Wert ist jeweils in etwa 0,66. Wenn Ihre Datenanalyse nur die oben genannten zusammenfassenden Informationen berücksichtigt hat, werden Sie vermutlich zur Schlussfolgerung gelangen, dass die Beziehung zwischen X und Y in jedem Fall dieselbe ist. An diesem Punkt haben Sie aber Ihre Daten nicht visualisiert. Ihre Schlussfolgerung könnte falsch sein.
1. Drücken Sie die Strg-Taste.
2. Klicken Sie auf das rote Dreieck neben einer der bivariaten Anpassungen und wählen Sie Punkte anzeigen aus.
Abbildung 5.3 Streudiagramme mit hinzugefügten Punkten
Die Streudiagramme zeigen, dass die Beziehung zwischen X und Y bei den vier Paaren nicht dieselbe ist, obwohl die Linien, die die Beziehungen beschreiben, identisch sind:
• Diagramm 1 zeigt eine lineare Beziehung.
• Diagramm 2 zeigt eine nicht-lineare Beziehung.
• Diagramm 3 zeigt eine lineare Beziehung mit einem Ausreißer.
• In Diagramm 4 sind alle Daten bei x = 8, bis auf einen Punkt.
Dieses Beispiel zeigt, dass Schlussfolgerungen, die allein auf Statistiken basieren, ungenau sein können. Eine visuelle Erkundung der Daten muss Teil jeder Datenanalyse sein.