Im Cerealienbeispiel haben Sie ermittelt, welche Cerealien im Rahmen einer gesunden Ernährung gegessen bzw. vermieden werden sollten. Jetzt möchten Sie ermitteln, wie sich die Cerealienvariablen zueinander verhalten. Mit der Plattform „Multivariat“ können Sie Muster und Beziehungen zwischen Variablen beobachten. Im Bericht „Multivariat“ haben Sie folgende Möglichkeiten:
• Zusammenfassen der Stärke der linearen Beziehungen zwischen jedem Paar von Zielgrößenvariablen mit Hilfe der Korrelationstabelle
• Erkennen von Abhängigkeiten, Ausreißern und Clustern mit Hilfe der Streudiagrammmatrix
• Verwenden anderer Techniken zum Untersuchen mehrerer Variablen wie partielle, inverse und paarweise Korrelationen, Kovarianzmatrizen und Hauptkomponenten
Hinweis: Weitere Informationen zur Plattform „Multivariat“ finden Sie unter Multivariate Methods.
Sie möchten die Beziehungen zwischen Variablen wie Fett und Kalorien erkennen. Die Analyse der Cerealiendaten in der Plattform „Multivariat“ liefert Antworten auf die folgenden Fragen:
• Welche Variablenpaare sind hochkorreliert?
• Welche Variablenpaare sind nicht korreliert?
1. Klicken Sie in der Datentabelle Cereal.jmp auf das untere Dreieck im oberen Bereich des Spaltenbereichs, um die Auswahl der Zeilen aufzuheben.
Abbildung 6.6 Zeilenauswahl aufheben
2. Wählen Sie Analysieren > Multivariate Methoden > Multivariat.
3. Wählen Sie Calories bis Potassium aus, klicken Sie auf Y, Spalten und dann auf OK.
Der Bericht „Multivariat“ wird angezeigt. Der Bericht enthält standardmäßig den Korrelationsbericht und die Streudiagrammmatrix. Der Korrelationsbericht ist eine Matrix von Korrelationskoeffizienten, die die Stärke der linearen Beziehungen zwischen jedem Paar von Zielgrößenvariablen (Y) angibt. Die dunklen Zahlen weisen auf eine höhere Korrelation hin.
Abbildung 6.7 Korrelationsbericht
Beachten Sie Folgendes:
– In der Spalte „Calories“ ist der Kaloriengehalt mit allen Variablen außer Sodium (Natrium) und Fiber (Ballaststoffen) hochkorreliert.
– In der Spalte „Fiber“ scheinen Fiber (Ballaststoffe) und Potassium (Kalium) hochkorreliert zu sein.
– In der Spalte „Sodium“ ist Sodium (Natrium) mit den anderen Variablen nicht hochkorreliert.
Die Dichteellipsen in der Streudiagramm-Matrix veranschaulichen die Beziehungen zwischen den Variablen noch weiter.
Abbildung 6.8 Teil der Streudiagrammmatrix
Standardmäßig ist eine 95% bivariate Dichteellipse der Normalverteilung in jedem Streudiagramm. Unter der Annahme, dass jedes Variablenpaar eine bivariate Normalverteilung hat, schließt diese Ellipse annähernd 95% der Datenpunkte ein. Wenn die Ellipse eher rund ist und nicht diagonal ausgerichtet, sind die Variablen nicht korreliert. Wenn die Ellipse eng und diagonal ausgerichtet ist, sind die Variablen korreliert.
Beachten Sie Folgendes:
– Die Ellipsen in der Zeile „Sodium“ sind ziemlich rund. Diese Form weist darauf hin, dass Sodium mit den anderen Variablen nicht korreliert ist.
– Die blauen x-Symbole, die Nat. Bran Oats & Honey, Cracklin’ Oat Bran und Banana Nut Crunch darstellen, erscheinen außerhalb der Ellipsen in der Zeile „Fat“. Diese Anordnung weist darauf hin, dass die Daten Ausreißer sind (aufgrund des Fettgehalts im Cerealienprodukt).
Später werden Sie eine Streudiagrammmatrix weiter untersuchen.
4. Klicken Sie auf das rote Dreieck für „Multivariat“ und wählen Sie Paarweise Korrelationen aus, um den Bericht „Paarweise Korrelationen“ anzuzeigen.
Abbildung 6.9 Teil des Berichts „Paarweise Korrelationen“
Der Bericht „Paarweise Korrelationen“ führt die Pearsons Produktmomente-Korrelation für jedes Paar von Y-Variablen auf. Der Bericht zeigt auch Signifikanzwahrscheinlichkeiten und vergleicht die Korrelation in einem Balkendiagramm.
5. Um rasch zu erkennen, welche Paare hochkorreliert sind, klicken Sie mit der rechten Maustaste in den Bericht und wählen das Kontrollkästchen Sortieren nach Spalte, Signif. Wahrsch., Aufsteigend aus und klicken dann auf OK.
Die am höchsten korrelierten Paare werden oben im Bericht angezeigt. Die kleinen p-Werte für die Paare deuten auf Korrelation hin. Die signifikanteste Korrelation besteht zwischen Tot Carbo (Gesamtkohlenhydrate) und Calories.
Abbildung 6.10 Kleine p-Werte für Paare
Wenn Sie sich die Ergebnisse ansehen, können Sie die folgenden Fragen beantworten:
Welche Variablenpaare sind hochkorreliert?
Der Korrelationsbericht und die Streudiagrammmatrix zeigen, dass der Kaloriengehalt hochgradig mit allen Variablen außer Sodium (Natrium) und Fiber (Ballaststoffe) korreliert. Der Bericht „Paarweise Korrelationen“ zeigt, dass Tot Carbo (Gesamtkohlenhydrate) und Calories das am höchsten korrelierte Variablenpaar ist.
Welche Variablenpaare sind nicht korreliert?
Der Korrelationsbericht und die Streudiagrammmatrix zeigen, dass Sodium (Natrium) nicht mit den anderen Variablen korreliert ist.
Ihre vorherige Entscheidung wird bestätigt, dass Sie den hohen Fettanteil von 100% Nat. Bran Oats & Honey vermeiden möchten. Die Entscheidung für All-Bran with Extra Fiber und Fiber One war ebenfalls eine gute Entscheidung. Diese beiden Cerealienprodukte mit hohem Ballaststoffanteil haben den zusätzlichen Vorteil, dass sie einen geringen Kaloriengehalt, weniger Fett und Zucker sowie einen höheren Kaliumgehalt aufweisen. Sie entscheiden sich außerdem dafür, Cerealien mit hohem Kohlenhydratanteil zu vermeiden, da diese wahrscheinlich einen hohen Kaloriengehalt haben.