Arten von Graphen

Unten finden Sie eine Liste mit mehreren Arten von Graphen, die bei der explorativen Datenanalyse (EDA) genutzt werden können. Klicken Sie auf einen Eintrag, um ein Beispiel des Graph-Typs, die Anzahl der genutzten Variablen im Graph und eine Beschreibung des Einsatzzwecks aufzurufen.

Histogramme

  • Anzahl der Variablen: 1
  • Zeigt die Form oder Verteilung für Daten an; kann bei der Ermittlung von Ausreißern helfen.
  • Mehr Informationen zu Histogrammen.
Abbildung 1: Histogramm

Vergleichende Histogramme

  • Anzahl der Variablen: 2
  • Zeigt die Formen oder Verteilungen für Datengruppen an; kann bei der Ermittlung von Ausreißern helfen.
Abbildung 2: Vergleichende Histogramme mit zwei Variablen

Balkendiagramme

  • Anzahl der Variablen: 1
  • Zeigt die Häufigkeit der Werte für eine kategoriale Variable an; kann vertikal (wie unten in Abbildung 3) oder horizontal eingezeichnet werden.
  • Mehr Informationen über Balkendiagramme.
Abbildung 3: Balkendiagramm zeigt Häufigkeiten

Gruppierte Balkendiagramme

  • Anzahl der Variablen: mindestens 2, je nachdem, wie viele Variablen zur Gruppendefinition verwendet werden
  • Zeigt Balkendiagramme für Gruppen an, die von einer anderen Variable definiert werden. Gruppierte Balkendiagramme enthalten ein separates Diagramm für jede Stufe einer Gruppierungsvariable.
Abbildung 4: Gruppierte Balkendiagramme

Gestapelte Balkendiagramme

  • Anzahl der Variablen: mindestens 2, je nachdem, wie viele Variablen zur Gruppendefinition verwendet werden
  • Zeigt Balkendiagramme für Gruppen an, die von einer anderen Variable definiert werden. Gestapelte Balkendiagramme weisen für jede Stufe der Gruppierungsvariable einen Balken auf. Die Häufigkeiten einer anderen Variable werden anhand von Farben und Mustern im jeweiligen Balken gestapelt.
Abbildung 5: Gestapeltes Balkendiagramm zeigt einen Balken pro Stufe der Gruppierungsvariable

Pareto-Diagramme

  • Anzahl der Variablen: 1
  • Zeigt die sortierten Häufigkeiten für eine Variable an. Nützlich, um die „wenigen wichtigen“ Faktoren hervorzuheben. Als Unterart des Balkendiagramms enthalten Pareto-Diagramme oft eine kumulierte Prozentkurve.
  • Mehr Informationen zu Pareto-Diagrammen.
Abbildung 6: Pareto-Diagramm zeigt die sortierten Häufigkeiten für eine Variable

Balkendiagramme im gepackten Stil

  • Anzahl der Variablen: 1
  • Zeigt die sortierten Häufigkeiten für eine Variable an. Wird anstelle des Pareto-Diagramms verwendet, besonders wenn mit vielen Kategorien gearbeitet wird. Nützlich, um die „wenigen wichtigen“ Faktoren hervorzuheben.
  • Erfahren Sie mehr über Balkendiagramme im gepackten Stil.
Abbildung 7: Balkendiagramm im gepackten Stil zeigt sortierte Häufigkeiten für eine Variable über mehrere Kategorien

Mosaikdiagramme

  • Anzahl der Variablen: mindestens 2
  • Zeigt die möglichen Zusammenhänge zwischen kategorialen Variablen. Nützlich zur Identifizierung von Datenfehlern wie z. B. falsch geschriebenen Kategorien. Eine Sonderform des gestapelten Balkendiagramms, die mehr als eine Variable auf der X-Achse darstellt.
  • Erfahren Sie mehr über Mosaikdiagramme.
Abbildung 8: Mosaikdiagramm zeigt mögliche Zusammenhänge zwischen kategorialen Variablen

Tree Maps

  • Anzahl der Variablen: mindestens 2
  • Zeigt mögliche Zusammenhänge zwischen Variablen. Eine Sonderform des gestapelten Balkendiagramms, bei der nach verschiedenen Variablen mit Farben, Reihenfolgen und Größen gearbeitet wird.
  • Erfahren Sie mehr über Tree Maps.
Abbildung 9: Tree Map zeigt Zusammenhänge zwischen Variablen

Box-Diagramme

  • Anzahl der Variablen: 1
  • Zeigt die Verteilung der Daten. Teile der Box kennzeichnen das 25. Perzentil, den Median (50. Perzentil) und das 75. Perzentil. In Abhängigkeit von den Daten zeigen die Whiskers das Minimum und das Maximum und die Ausreißer liegen hinter den Whiskers. Wird verwendet, um Datenfehler zu finden und eine Variable zu untersuchen.
  • Erfahren Sie mehr über Box-Diagramme.
Abbildung 10: Box-Diagramm

Vergleichende Box-Diagramme

  • Anzahl der Variablen: mindestens 2, je nachdem, wie viele Variablen zur Gruppendefinition verwendet werden
  • Zeigt Box-Diagramme für Gruppen an, die von einer anderen Variable definiert werden. Wird verwendet, um Datenfehler zu finden und zwei oder mehr Variablen zu untersuchen.
Abbildung 11: Vergleichendes Box-Diagramm zur Untersuchung von zwei oder mehreren Variablen

Diagramme der Normal-Quantile

  • Anzahl der Variablen: 1
  • Dient zur Feststellung, ob die Annahme der Normalverteilung für eine Variable angemessen ist.
Abbildung 12: Diagramm der Normal-Quantile wird verwendet, um die Normalverteilung einer Variable zu bestimmen

Liniendiagramme

  • Anzahl der Variablen: 2
  • Zeigt Veränderungen im Zeitverlauf. Die X-Achse muss zeitlich sortierte Werte aufweisen. Liniendiagramme, die auch Verlaufsdiagramme genannt werden, eignen sich zur Suche nach Ausreißern.
  • Erfahren Sie mehr über Liniendiagramme.
Abbildung 13: Liniendiagramm zeigt Änderungen im Zeitverlauf

Liniendiagramme mit Kategorien

  • Anzahl der Variablen: mindestens 2, je nachdem, wie viele Variablen zur Gruppendefinition verwendet werden
  • Zeigt mehrere Liniendiagramme für Gruppen an, die von einer anderen Variable definiert werden. Wird benutzt, um die Änderungen im Hinblick auf mehrere Variablen im Zeitverlauf nachzuvollziehen, und um Ausreißer zu identifizieren.
Abbildung 14: Liniendiagramm mit Kategorien, um nachzuvollziehen, wie sich mehrere Variablen im Zeitverlauf ändern

Streudiagramme

  • Anzahl der Variablen: mindestens 2, je nachdem, wie viele Variablen zur Definition von Gruppen für Farben und Symbole verwendet werden.
  • Zeigt eine mögliche Beziehung zwischen zwei Variablen und ermittelt Ausreißer. Farben und/oder Symbole für andere Variablen können die EDA unterstützen. Referenzlinien oder Spezifikationsgrenzen können bei der Ermittlung von Ausreißern helfen.
  • Mehr Informationen zu Streudiagrammen.
Abbildung 15: Streudiagramm zeigt einen möglichen Zusammenhang zwischen zwei Variablen

Streudiagramm-Matrix

  • Anzahl der Variablen: viele
  • Zeigt die möglichen Zusammenhänge zwischen mehreren Variablen unter Betrachtung aller zweifaktoriellen Kombinationen. Weitere Graphen können hinzugefügt werden: Histogramme für jede Variable, um Ausreißer zu ermitteln; Dichteellipsen für jedes Streudiagramm, um mehrdimensionale Ausreißer zu erkennen; Heatmaps der Korrelationen, um mögliche Zusammenhänge zu klären.
Abbildung 16: Streudiagramm-Matrix zeigt mögliche Zusammenhänge zwischen mehreren Variablen

Tortendiagramme

  • Anzahl der Variablen: mindestens 1
  • Zeigt Beziehungen von Teilen zu Gesamtheiten für eine Variable. Kategorien sind bei mehreren Tortendiagrammen sinnvoller als bei einem einzelnen Tortendiagramm. Bei einer einzelnen Variable lassen sich mit einem Balkendiagramm leichter kleine Differenzen zwischen den Werten ausmachen.
  • Mehr Informationen über Tortendiagramme.
Abbildung 17: Tortendiagramm zeigt Zusammenhänge von Teilen zu Gesamtheiten für eine Variable

Heatmaps

  • Anzahl der Variablen: mindestens 2
  • Zeigt mögliche Zusammenhänge zwischen Variablen. Wird meist für Daten verwendet, die sich im Zeitverlauf ändern. Stellt Zusammenhänge zwischen Variablen anhand von Farben dar.
  • Mehr Informationen zu Heatmaps.
Abbildung 18: Heatmap zeigt mögliche Zusammenhänge zwischen Variablen

Stamm-Blatt-Diagramme

  • Anzahl der Variablen: 1
  • Zeigt die Form von Daten an und hebt Ausreißer hervor. Wurde stärker genutzt, bevor Computer verfügbar waren; inzwischen werden häufiger Histogramme genutzt.
Abbildung 19: Stamm-Blatt-Diagramm zeigt die Form von Daten und hebt Ausreißer hervor