Streudiagramm

Was ist ein Streudiagramm?

Streudiagramme zeigen einen möglichen Zusammenhang zwischen zwei stetigen Variablen.

Wie werden Streudiagramme verwendet?

Streudiagramme werden eingesetzt, um Zusammenhänge darzustellen. Sie zeigen die Stärke der linearen Beziehung zwischen zwei Variablen und stellen somit die Korrelation dar. Zur Darstellung der Regression nutzen Streudiagramme häufig eine angepasste Gerade. Im Bereich der Qualitätskontrolle umfassen Streudiagramme auch häufig Spezifikationsgrenzen oder Referenzlinien.

Streudiagramme stellen Zusammenhänge dar

Streudiagramme zeigen den Zusammenhang zwischen zwei stetigen Variablen, indem eine der Variablen auf der X-Achse und die andere auf der Y-Achse dargestellt wird.

Ein Streudiagramm für Regressionen umfasst die Zielgrößenvariable auf der Y-Achse und die Eingabevariable auf der X-Achse.

Beispiele für Streudiagramme

Beispiel 1: ein positiver Zusammenhang

Das Streudiagramm in Abbildung 1 stellt einen positiven Zusammenhang dar. Die X-Achse zeigt die Anzahl der Mitarbeiter in einem Unternehmen und die Y-Achse die Gewinne des Unternehmens an. Dieses Streudiagramm weist nach, dass eine Steigerung der Anzahl der Mitarbeiter auch zu einer Steigerung des Umsatzes führt. Unternehmen mit weniger Mitarbeitern (auf der linken Seite des Graphen) weisen geringere Gewinne vor, wohingegen Unternehmen mit mehr Mitarbeitern höhere Gewinne erzielen. Dies ist allerdings ein sehr einfaches Beispiel, da es eine Reihe verschiedener Variablen gibt, die sich auf die Gewinne eines Unternehmen auswirken können.

Profits vs Employee Scatterplot
Abbildung 1: Streudiagramm zeigt einen positiven Zusammenhang

Beispiel 2: ein negativer Zusammenhang

Das Streudiagramm in Abbildung 2 stellt einen negativen Zusammenhang dar. Die X-Achse zeigt die Menge an Natrium in Gramm für verschiedene verarbeitete Fleischwaren, während die Y-Achse die Kosten pro Kilogramm Fleisch angibt. Das Streudiagramm zeigt auf, dass der Preis der Proteinquelle sinkt, je höher der Natriumgehalt des Produktes ist. Fleischprodukte mit niedrigerem Natriumgehalt (auf der linken Seite des Grafen) kosten mehr als Proteinquellen mit höherem Natriumgehalt. Diese Ergebnisse ergeben Sinn, da Salz zu Fleisch aus minderer Qualität (günstigerem Fleisch) hinzugefügt werden kann, wodurch zwar der Geschmack verbessert, aber auch der Natriumgehalt erhöht wird.

Cost per Kilo Protein Scatterplot
Abbildung 2: Streudiagramm zeigt einen negativen Zusammenhang zwischen zwei Variablen

Beispiel 3: kein Zusammenhang

Das Streudiagramm in Abbildung 3 zeigt zwei Variablen, zwischen denen kein Zusammenhang besteht. Die X-Achse zeigt die Größe des Waschgangs für eine Vorwäsche von Jeansstoffen und die Y-Achse zeigt die gemessene Abnutzung der Stoffe. Das Streudiagramm ergibt eine Reihe zufälliger Punktwolken. Auf der rechten Seite des Graphen kann möglicherweise ein leichter Zusammenhang zwischen der höheren Beladungsmenge und niedrigeren Abnutzung der Stoffe festgestellt werden. In diesem Fall lässt sich eine einfache lineare Regression nutzen, um diese Idee zu überprüfen.

Thread Wear Scatterplot
Abbildung 3: Streudiagramm zeigt, dass es keinen Zusammenhang zwischen zwei Variablen gibt

Beispiel 1: ein nicht-linearer Zusammenhang

Das Streudiagramm in Abbildung 1 stellt einen nicht-linearen Zusammenhang zwischen zwei Variablen dar. Die X-Achse zeigt die Geburtenrate und die Y-Achse die Todesrate für eine Gruppe von Ländern. Bis zu einer Geburtenrate von 25 bis 30 zeigt das Streudiagramm einen negativen Zusammenhang. Ab diesem Punkt ändert sich diese Beziehung und es ist ein positiver Zusammenhang erkennbar.

Birth and Death Rates Scatterplot
Abbildung 4: Streudiagramm zeigt einen nicht-linearen Zusammenhang zwischen zwei Variablen, bei dem zunächst ein negativer und dann ein positiver Zusammenhang beobachtet werden kann

Beispiel 5: Ausreißer in einem Streudiagramm

Unübliche Punkte in den Daten, auch Ausreißer genannt, fallen in einem Streudiagramm besonders auf.

Abbildung 5 zeigt ein Streudiagramm mit einem Ausreißer, während Abbildung 6 dasselbe Diagramm ohne den Ausreißer darstellt. Der einzelne Ausreißer oben rechts beeinflusst Ihre Fähigkeit, die Daten in dem Streudiagramm zu visualisieren. Wenn es in Ihrem Streudiagramm einen unüblichen Datenpunkt gibt, können Sie Untersuchungen zu der Ursache dieses Ausreißers vornehmen. Nach Wunsch können Sie die Daten mit oder auch ohne den Ausreißer anzeigen lassen.

Scatter Plot with Outlier
Abbildung 5: Streudiagramm zeigt einen Ausreißer
Scatter Plot No Outlier
Abbildung 6: Streudiagramm zeigt keine Ausreißer

Streudiagramme individuell anpassen

Anhand von Farben und Symbolen können weitere Details zu anderen Variablen innerhalb eines Streudiagramms hinzugefügt werden. So können beispielsweise Referenzlinien Spezifikationsgrenzen darstellen.

Farben und Symbole nutzen

Abbildung 7 zeigt ein Streudiagramm, das den Zusammenhang zwischen dem Gewicht und der Pferdestärke von 116 verschiedenen Automodellen darstellt.

Weight vs Horsepower Scatterplot
Abbildung 7: Streudiagramm zeigt einen positiven Zusammenhang zwischen der Pferdestärke und dem Gewicht eines Autos

Das Basisdiagramm stellt einen positiven Zusammenhang dar. Die schwereren Autos haben mehr PS als leichtere Autos.

Die Ursprungsländer der Autos werden in die Kategorien „USA“, „Japan“ oder „Andere“ und die Autotypen in „sportlich“, „kompakt“, „klein“, „mittelgroß“ oder „groß“ unterteilt. Das Standard-Streudiagramm kann durch den Einsatz von Farben und Symbolen für diese zwei Variablen noch optimiert werden.

In dem Streudiagramm in Abbildung 8 werden Farben verwendet, um die Datenpunkte der drei Werte für das Ursprungsland zu unterscheiden.

Weight vs Horsepower with Legend
Abbildung 8: das gleiche Streudiagramm wie in Abbildung 7; diesmal werden jedoch die Unterschiede zwischen den Werten je nach Land farblich hervorgehoben

Es lässt sich genau ablesen, dass Autos mit mehr als 225 PS (Pferdestärken) entweder aus Japan oder aus den USA kommen. Keines der Autos mit den niedrigsten Pferdestärken kommt aus den USA.

Es können außerdem unterschiedliche Symbole für unterschiedliche Autotypen hinzugefügt werden.

Weight vs Horsepower with legend
Abbildung 9: das gleiche Streudiagramm wie in Abbildung 7; diesmal jedoch mit Farbzuweisung je nach Ländern und mit Symbolen für die einzelnen Autotypen

Anhand der Quadrate und Kreise ist erkennbar, dass Autos mit 200 PS oder mehr entweder „mittelgroß“ oder „sportlich“ sind. Alle Autos mit den niedrigsten PS-Werten fallen in die Kategorie „klein“, wie die nach oben zeigenden Dreiecke angeben. Der grüne Diamant am oberen Rand des Diagramms zeigt, dass das schwerste Auto in den USA hergestellt wurde. Dieses Auto weist im Bereich Pferdestärken allerdings nur durchschnittliche Werte auf.

Sie können Ihre Daten nutzen, um Farben und/oder Symbole zu Ihrem Streudiagramm hinzuzufügen und diesem somit zusätzliche Dimensionen zu verleihen.

Referenzlinien hinzufügen

Referenzlinien können eine sinnvolle Ergänzung für Ihr Streudiagramm darstellen. Nehmen wir einmal an, Sie müssen herausfinden, welche Autos nicht über eine alte Holzbrücke fahren können, für die eine Gewichtsbegrenzung von 1.815 kg (4.000 lbs) herrscht. In dem Streudiagramm in Abbildung 10 wird eine Referenzlinie mit einer Anmerkung zur Relevanz der Linie angezeigt.

Weight vs Horsepower with Bar
Abbildung 10: das gleiche Streudiagramm wie in Abbildung 9, diesmal jedoch mit einer zusätzlichen Referenzlinie, welche die Obergrenze von 1.815 kg (4.000 lbs) der Gewichtungsvariablen darstellt

Abbildung 11 zeigt dasselbe Streudiagramm mit Beschriftungen für die vier Autos, die nicht über die Brücke fahren dürfen.

Weight vs Horsepower Scatterplot with Upper Limit
Abbildung 11: das gleiche Streudiagramm wie in Abbildung 10, diesmal jedoch mit Beschriftungen für die vier Punkte, welche die Obergrenze der Gewichtungsvariablen nicht einhalten

Spezifikationsgrenzen hinzufügen

In vielen Situationen gibt es Spezifikationsgrenzen für die Variablen. Anhand der Fleischdaten aus Abbildung 2 sind Käufer für Schulkantinen dazu verpflichtet, Fleisch zu erwerben, dass mindestens 300 g, optimal 450 g und maximal 600 g Natrium enthält. Abbildung 12 zeigt ein Streudiagramm mit diesen Spezifikationsgrenzen.

Protein vs Sodium Scatterplot
Abbildung 12: Streudiagramm zeigt Spezifikationsgrenzen

Dank dieser zusätzlicher Linien können Sie ganz einfach erkennen, dass es vier verschiedene Arten von verarbeiteten Fleischwaren gibt, die nicht für Schulkantinen eingekauft werden dürfen. Wie in Abbildung 13 dargestellt können auch hier Beschriftungen und Farben zu diesen Punkten hinzugefügt werden, um zusätzliche Informationen bereitzustellen. Käufer können dann diese Grafik nutzen, um aufzuzeigen, weshalb einige der Fleischwaren nicht infrage kommen.

Protein vs Sodium Scatterplot with Limits
Abbildung 13: das gleiche Streudiagramm wie in Abbildung 12, diesmal jedoch mit Beschriftungen für die Punkte, die außerhalb der Spezifikationsgrenzen liegen

Streudiagramm-Matrix

Die Streudiagramm-Matrix kann den Zusammenhang zwischen mehreren Variablen darstellen. Nachdem alle wechselseitigen Kombinationen der Variablen angezeigt wurden, kann die Matrix auch die Zusammenhänge zwischen Variablen aufzeigen und somit die Zusammenhänge hervorheben, die wahrscheinlich von großer Bedeutung sind. Anhand der Matrix können Sie auch Ausreißer identifizieren, die in mehreren Streudiagrammen vorkommen.

Abbildung 14 zeigt eine Streudiagramm-Matrix für die Daten zu verschiedenen Automodellen. In den Streudiagrammen werden die Farben und Symbole aus den Abbildungen 9–11 verwendet. Das erste Streudiagramm in der Spalte am äußeren linken Rand stellt den Zusammenhang zwischen dem Gewicht und Wendekreis dar. Das obere und das untere Dreieck in der Matrix sind Spiegelbilder voneinander.

Scatterplot Matrix
Abbildung 14: Streudiagramm-Matrix mit benutzerdefinierten Farben und Symbolen

Die Matrix zeigt, dass es sich bei den Beziehungen zwischen allen wechselseitigen Kombinationen der Variablen um einen positiven Zusammenhang handelt.

Dank JMP ist es jetzt möglich, zusätzliche Informationen zu einer Streudiagramm-Matrix hinzuzufügen, darunter Histogramme für jede Variable entlang der Diagonale. Es ist außerdem möglich, die Streudiagramme im oberen Dreieck durch die Korrelation zwischen den einzelnen Paaren von Variablen zu ersetzen. Sie können diese Änderungen in der Streudiagramm-Matrix in Abbildung 15 sehen. Die Legende auf der rechten Seite zeigt eine Heatmap für die Korrelationen, wobei die dunkelrote Farbe einen starken, positiven Zusammenhang zwischen den wechselseitigen Kombinationen der Variablen darstellt.

Scatterplot Matrix with Legend
Abbildung 15: Streudiagramm-Matrix zeigt Histogramme sowie die Korrelationen zwischen Variablen

Die Matrix zeigt außerdem mögliche Ausreißer in dem Histogramm zum Hubraum.

Mit JMP können sogar noch mehr Informationen zu einer Matrix hinzugefügt werden, z. B. Dichteellipsen für die einzelnen Streudiagramme, damit die Ausreißer auch in mehreren Dimensionen angezeigt werden. Abbildung 16 zeigt, dass durch das Auswählen eines Ausreißers in einem einzelnen Streudiagramm dieser Ausreißer auch in allen anderen Streudiagrammen hervorgehoben wird.

Abbildung 16: Streudiagramm-Matrix zeigt einen Ausreißer in dem Streudiagramm „Gewicht und Wendekreis“, der bereits ausgewählt wurde

Die Streudiagramm-Matrix in Abbildung 16 zeigt die Dichteellipsen für die einzelnen Streudiagramme. Die roten Kreise umfassen ca. 95 % der Daten. Die Punkte außerhalb der Kreise können auf multivariate Ausreißer untersucht werden. In Abbildung 16 wurde der einzelne blaue Punkt ausgewählt, der ein Ausreißer in dem Streudiagramm „Gewicht und Wendekreis“ ist. Dieser Punkt gilt auch für einige der anderen Streudiagramme als Ausreißer, wenn auch nicht für alle. In dem Diagramm „Hubraum und Pferdestärke“ wird dieser Punkt in der Mitte der Dichteellipse hervorgehoben.

Wenn Sie die Auswahl für diesen Punkt aufheben, werden alle Punkte wieder in der gleichen Helligkeitsstufe angezeigt (siehe Abbildung 17). Der Grund für die möglichen Ausreißer in der Dichteellipse des Streudiagramms „Hubraum und Pferdestärke“ wird im Histogramm zum Hubraum dargestellt. Auf der rechten Seite des Streudiagramms gibt es einige Punkte, die außerhalb der Ellipse liegen. Die Farben zeigen an, dass all diese Punkte zu Autos gehören, die in den USA hergestellt wurden. Die Symbole hingegen geben an, dass diese Autos entweder der Kategorie „sportlich“, „mittelgroß“ oder „groß“ angehören. Anmerkungen, die sowohl die Farben als auch die Symbole erläutern, könnten die Matrix noch weiter optimieren.

Abbildung 17: Streudiagramm-Matrix zeigt interessante Ausreißer in dem Streudiagramm „Hubraum und Pferdestärke“

Sie können für Ihre Daten eine Streudiagramm-Matrix nutzen und auf diese Weise mehrere Variablen gleichzeitig untersuchen.

Streudiagramme und Datentypen

Stetige Daten: geeignet für Streudiagramme

Streudiagramme eignen sich für stetige Daten, da diese Daten auf einer Skala mit vielen möglichen Werten gemessen werden. Beispiele für stetige Daten sind:

  • Alter
  • Blutdruck
  • Gewichtung
  • Temperatur
  • Geschwindigkeit

 

Kategoriale oder nominale Daten: Balkendiagramme benutzen

Streudiagramme eignen sich nicht für kategoriale oder nominale Daten, da diese Daten auf einer Skala spezifischer Werte gemessen werden. Nutzen Sie dafür Balkendiagramme.

Bei kategorialen Daten wird die Stichprobe in Gruppen aufgeteilt und die Antworten können eine feste Reihenfolge haben. Wenn Sie zum Beispiel in einer Umfrage gebeten werden, Ihre Meinung auf einer Skala von „Stimme überhaupt nicht zu“ bis „Stimme voll und ganz zu“ anzugeben, sind Ihre Antworten kategorial.

Bei nominalen Daten ist die Stichprobe zudem in Gruppen ohne bestimmte Reihenfolge aufgeteilt. „Wohnsitzland“ wäre ein Beispiel für eine nominale Variable. Sie können den Ländercode oder Zahlen benutzen, um den Ländernamen abzukürzen. Wie Sie es auch anstellen, Sie benennen die verschiedenen Gruppen von Daten.

Sie können kategoriale oder nominale Variablen nutzen, um ein Streudiagramm anzupassen. Ordnen Sie den Stufen dieser Variablen verschiedene Farben oder Symbole zu.