Das große Ganze > Beispiel für die Untersuchung von Daten in mehreren Plattformen > Muster und Beziehungen in der Plattform „Multivariat“ analysieren
Erscheinungsdatum: 08/11/2023

Muster und Beziehungen in der Plattform „Multivariat“ analysieren

Im Cerealienbeispiel haben Sie ermittelt, welche Cerealien im Rahmen einer gesunden Ernährung gegessen bzw. vermieden werden sollten. Jetzt möchten Sie ermitteln, wie sich die Cerealienvariablen zueinander verhalten. Mit der Plattform „Multivariat“ können Sie Muster und Beziehungen zwischen Variablen beobachten. Im Bericht „Multivariat“ haben Sie folgende Möglichkeiten:

Zusammenfassen der Stärke der linearen Beziehungen zwischen jedem Paar von Zielgrößenvariablen mit Hilfe der Korrelationstabelle

Erkennen von Abhängigkeiten, Ausreißern und Clustern mit Hilfe der Streudiagrammmatrix

Verwenden anderer Techniken zum Untersuchen mehrerer Variablen wie partielle, inverse und paarweise Korrelationen, Kovarianzmatrizen und Hauptkomponenten

Hinweis: Weitere Informationen zur Plattform „Multivariat“ finden Sie unter Multivariate Methods.

Szenario

Sie möchten die Beziehungen zwischen Variablen wie Fett und Kalorien erkennen. Die Analyse der Cerealiendaten in der Plattform „Multivariat“ liefert Antworten auf die folgenden Fragen:

Welche Variablenpaare sind hochkorreliert?

Welche Variablenpaare sind nicht korreliert?

Bericht „Multivariat“ erstellen

1. Klicken Sie in der Datentabelle Cereal.jmp auf das untere Dreieck im oberen Bereich des Spaltenbereichs, um die Auswahl der Zeilen aufzuheben.

Abbildung 6.6 Zeilenauswahl aufheben 

Deselecting Rows

2. Wählen Sie Analysieren > Multivariate Methoden > Multivariat.

3. Wählen Sie Calories bis Potassium aus, klicken Sie auf Y, Spalten und dann auf OK.

Der Bericht „Multivariat“ wird angezeigt. Der Bericht enthält standardmäßig den Korrelationsbericht und die Streudiagrammmatrix. Der Korrelationsbericht ist eine Matrix von Korrelationskoeffizienten, die die Stärke der linearen Beziehungen zwischen jedem Paar von Zielgrößenvariablen (Y) angibt. Die dunklen Zahlen weisen auf eine höhere Korrelation hin.

Abbildung 6.7 Korrelationsbericht 

Correlations Report

Beachten Sie Folgendes:

In der Spalte „Calories“ ist der Kaloriengehalt mit allen Variablen außer Sodium (Natrium) und Fiber (Ballaststoffen) hochkorreliert.

In der Spalte „Fiber“ scheinen Fiber (Ballaststoffe) und Potassium (Kalium) hochkorreliert zu sein.

In der Spalte „Sodium“ ist Sodium (Natrium) mit den anderen Variablen nicht hochkorreliert.

Die Dichteellipsen in der Streudiagramm-Matrix veranschaulichen die Beziehungen zwischen den Variablen noch weiter.

Abbildung 6.8 Teil der Streudiagrammmatrix 

Portion of the Scatterplot Matrix

Standardmäßig ist eine 95% bivariate Dichteellipse der Normalverteilung in jedem Streudiagramm. Unter der Annahme, dass jedes Variablenpaar eine bivariate Normalverteilung hat, schließt diese Ellipse annähernd 95% der Datenpunkte ein. Wenn die Ellipse eher rund ist und nicht diagonal ausgerichtet, sind die Variablen nicht korreliert. Wenn die Ellipse eng und diagonal ausgerichtet ist, sind die Variablen korreliert.

Beachten Sie Folgendes:

Die Ellipsen in der Zeile „Sodium“ sind ziemlich rund. Diese Form weist darauf hin, dass Sodium mit den anderen Variablen nicht korreliert ist.

Die blauen x-Symbole, die Nat. Bran Oats & Honey, Cracklin’ Oat Bran und Banana Nut Crunch darstellen, erscheinen außerhalb der Ellipsen in der Zeile „Fat“. Diese Anordnung weist darauf hin, dass die Daten Ausreißer sind (aufgrund des Fettgehalts im Cerealienprodukt).

Später werden Sie eine Streudiagrammmatrix weiter untersuchen.

4. Klicken Sie auf das rote Dreieck für „Multivariat“ und wählen Sie Paarweise Korrelationen aus, um den Bericht „Paarweise Korrelationen“ anzuzeigen.

Abbildung 6.9 Teil des Berichts „Paarweise Korrelationen“ 

Portion of the Pairwise Correlations Report

Der Bericht „Paarweise Korrelationen“ führt die Pearsons Produktmomente-Korrelation für jedes Paar von Y-Variablen auf. Der Bericht zeigt auch Signifikanzwahrscheinlichkeiten und vergleicht die Korrelation in einem Balkendiagramm.

5. Um rasch zu erkennen, welche Paare hochkorreliert sind, klicken Sie mit der rechten Maustaste in den Bericht und wählen das Kontrollkästchen Sortieren nach Spalte, Signif. Wahrsch., Aufsteigend aus und klicken dann auf OK.

Die am höchsten korrelierten Paare werden oben im Bericht angezeigt. Die kleinen p-Werte für die Paare deuten auf Korrelation hin. Die signifikanteste Korrelation besteht zwischen Tot Carbo (Gesamtkohlenhydrate) und Calories.

Abbildung 6.10 Kleine p-Werte für Paare 

Small p-values for Pairs

Ergebnisse interpretieren

Wenn Sie sich die Ergebnisse ansehen, können Sie die folgenden Fragen beantworten:

Welche Variablenpaare sind hochkorreliert?

Der Korrelationsbericht und die Streudiagrammmatrix zeigen, dass der Kaloriengehalt hochgradig mit allen Variablen außer Sodium (Natrium) und Fiber (Ballaststoffe) korreliert. Der Bericht „Paarweise Korrelationen“ zeigt, dass Tot Carbo (Gesamtkohlenhydrate) und Calories das am höchsten korrelierte Variablenpaar ist.

Welche Variablenpaare sind nicht korreliert?

Der Korrelationsbericht und die Streudiagrammmatrix zeigen, dass Sodium (Natrium) nicht mit den anderen Variablen korreliert ist.

Schlussfolgerungen ziehen

Ihre vorherige Entscheidung wird bestätigt, dass Sie den hohen Fettanteil von 100% Nat. Bran Oats & Honey vermeiden möchten. Die Entscheidung für All-Bran with Extra Fiber und Fiber One war ebenfalls eine gute Entscheidung. Diese beiden Cerealienprodukte mit hohem Ballaststoffanteil haben den zusätzlichen Vorteil, dass sie einen geringen Kaloriengehalt, weniger Fett und Zucker sowie einen höheren Kaliumgehalt aufweisen. Sie entscheiden sich außerdem dafür, Cerealien mit hohem Kohlenhydratanteil zu vermeiden, da diese wahrscheinlich einen hohen Kaloriengehalt haben.

Möchten Sie weitere Informationen? Habe Fragen? Erhalten Sie Antworten in der JMP-Benutzer-Community (community.jmp.com).