Arten von Graphen
Unten finden Sie eine Liste mit mehreren Arten von Graphen, die bei der explorativen Datenanalyse (EDA) genutzt werden können. Klicken Sie auf einen Eintrag, um ein Beispiel des Graph-Typs, die Anzahl der genutzten Variablen im Graph und eine Beschreibung des Einsatzzwecks aufzurufen.
Histogramme
- Anzahl der Variablen: 1
- Zeigt die Form oder Verteilung für Daten an; kann bei der Ermittlung von Ausreißern helfen.
- Mehr Informationen zu Histogrammen.
Vergleichende Histogramme
- Anzahl der Variablen: 2
- Zeigt die Formen oder Verteilungen für Datengruppen an; kann bei der Ermittlung von Ausreißern helfen.
Balkendiagramme
- Anzahl der Variablen: 1
- Zeigt die Häufigkeit der Werte für eine kategoriale Variable an; kann vertikal (wie unten in Abbildung 3) oder horizontal eingezeichnet werden.
- Mehr Informationen über Balkendiagramme.
Gruppierte Balkendiagramme
- Anzahl der Variablen: mindestens 2, je nachdem, wie viele Variablen zur Gruppendefinition verwendet werden
- Zeigt Balkendiagramme für Gruppen an, die von einer anderen Variable definiert werden. Gruppierte Balkendiagramme enthalten ein separates Diagramm für jede Stufe einer Gruppierungsvariable.
Gestapelte Balkendiagramme
- Anzahl der Variablen: mindestens 2, je nachdem, wie viele Variablen zur Gruppendefinition verwendet werden
- Zeigt Balkendiagramme für Gruppen an, die von einer anderen Variable definiert werden. Gestapelte Balkendiagramme weisen für jede Stufe der Gruppierungsvariable einen Balken auf. Die Häufigkeiten einer anderen Variable werden anhand von Farben und Mustern im jeweiligen Balken gestapelt.
Pareto-Diagramme
- Anzahl der Variablen: 1
- Zeigt die sortierten Häufigkeiten für eine Variable an. Nützlich, um die „wenigen wichtigen“ Faktoren hervorzuheben. Als Unterart des Balkendiagramms enthalten Pareto-Diagramme oft eine kumulierte Prozentkurve.
- Mehr Informationen zu Pareto-Diagrammen.
Balkendiagramme im gepackten Stil
- Anzahl der Variablen: 1
- Zeigt die sortierten Häufigkeiten für eine Variable an. Wird anstelle des Pareto-Diagramms verwendet, besonders wenn mit vielen Kategorien gearbeitet wird. Nützlich, um die „wenigen wichtigen“ Faktoren hervorzuheben.
- Erfahren Sie mehr über Balkendiagramme im gepackten Stil.
Mosaikdiagramme
- Anzahl der Variablen: mindestens 2
- Zeigt die möglichen Zusammenhänge zwischen kategorialen Variablen. Nützlich zur Identifizierung von Datenfehlern wie z. B. falsch geschriebenen Kategorien. Eine Sonderform des gestapelten Balkendiagramms, die mehr als eine Variable auf der X-Achse darstellt.
- Erfahren Sie mehr über Mosaikdiagramme.
Tree Maps
- Anzahl der Variablen: mindestens 2
- Zeigt mögliche Zusammenhänge zwischen Variablen. Eine Sonderform des gestapelten Balkendiagramms, bei der nach verschiedenen Variablen mit Farben, Reihenfolgen und Größen gearbeitet wird.
- Erfahren Sie mehr über Tree Maps.
Box-Diagramme
- Anzahl der Variablen: 1
- Zeigt die Verteilung der Daten. Teile der Box kennzeichnen das 25. Perzentil, den Median (50. Perzentil) und das 75. Perzentil. In Abhängigkeit von den Daten zeigen die Whiskers das Minimum und das Maximum und die Ausreißer liegen hinter den Whiskers. Wird verwendet, um Datenfehler zu finden und eine Variable zu untersuchen.
- Erfahren Sie mehr über Box-Diagramme.
Vergleichende Box-Diagramme
- Anzahl der Variablen: mindestens 2, je nachdem, wie viele Variablen zur Gruppendefinition verwendet werden
- Zeigt Box-Diagramme für Gruppen an, die von einer anderen Variable definiert werden. Wird verwendet, um Datenfehler zu finden und zwei oder mehr Variablen zu untersuchen.
Diagramme der Normal-Quantile
- Anzahl der Variablen: 1
- Dient zur Feststellung, ob die Annahme der Normalverteilung für eine Variable angemessen ist.
Liniendiagramme
- Anzahl der Variablen: 2
- Zeigt Veränderungen im Zeitverlauf. Die X-Achse muss zeitlich sortierte Werte aufweisen. Liniendiagramme, die auch Verlaufsdiagramme genannt werden, eignen sich zur Suche nach Ausreißern.
- Erfahren Sie mehr über Liniendiagramme.
Liniendiagramme mit Kategorien
- Anzahl der Variablen: mindestens 2, je nachdem, wie viele Variablen zur Gruppendefinition verwendet werden
- Zeigt mehrere Liniendiagramme für Gruppen an, die von einer anderen Variable definiert werden. Wird benutzt, um die Änderungen im Hinblick auf mehrere Variablen im Zeitverlauf nachzuvollziehen, und um Ausreißer zu identifizieren.
Streudiagramme
- Anzahl der Variablen: mindestens 2, je nachdem, wie viele Variablen zur Definition von Gruppen für Farben und Symbole verwendet werden.
- Zeigt eine mögliche Beziehung zwischen zwei Variablen und ermittelt Ausreißer. Farben und/oder Symbole für andere Variablen können die EDA unterstützen. Referenzlinien oder Spezifikationsgrenzen können bei der Ermittlung von Ausreißern helfen.
- Mehr Informationen zu Streudiagrammen.
Streudiagramm-Matrix
- Anzahl der Variablen: viele
- Zeigt die möglichen Zusammenhänge zwischen mehreren Variablen unter Betrachtung aller zweifaktoriellen Kombinationen. Weitere Graphen können hinzugefügt werden: Histogramme für jede Variable, um Ausreißer zu ermitteln; Dichteellipsen für jedes Streudiagramm, um mehrdimensionale Ausreißer zu erkennen; Heatmaps der Korrelationen, um mögliche Zusammenhänge zu klären.
Tortendiagramme
- Anzahl der Variablen: mindestens 1
- Zeigt Beziehungen von Teilen zu Gesamtheiten für eine Variable. Kategorien sind bei mehreren Tortendiagrammen sinnvoller als bei einem einzelnen Tortendiagramm. Bei einer einzelnen Variable lassen sich mit einem Balkendiagramm leichter kleine Differenzen zwischen den Werten ausmachen.
- Mehr Informationen über Tortendiagramme.
Heatmaps
- Anzahl der Variablen: mindestens 2
- Zeigt mögliche Zusammenhänge zwischen Variablen. Wird meist für Daten verwendet, die sich im Zeitverlauf ändern. Stellt Zusammenhänge zwischen Variablen anhand von Farben dar.
- Mehr Informationen zu Heatmaps.
Stamm-Blatt-Diagramme
- Anzahl der Variablen: 1
- Zeigt die Form von Daten an und hebt Ausreißer hervor. Wurde stärker genutzt, bevor Computer verfügbar waren; inzwischen werden häufiger Histogramme genutzt.