Box-Plot

Was ist ein Box-Diagramm?

Ein Box-Diagramm zeigt die Verteilung von Daten für eine stetige Variable an.

Wie werden Box-Diagramme verwendet?

Box-Diagramme helfen Ihnen dabei, die Mitte und die Streuung von Daten zu erkennen. Sie können sie als visuelles Werkzeug zur Normalverteilungsprüfung nutzen oder damit Punkte ermitteln, die Ausreißer sein können.

Ist ein Box-Diagramm dasselbe wie ein Box-und-Whisker-Plot?

Ja. Box-Diagramme werden auch als Box-Plot nach EDA oder Quantil-Box-Diagramm bezeichnet.Das sind Zeichnungsvarianten von Box-Diagrammen.

Welche Fragen sollten Sie berücksichtigen?

Beim Einsatz eines Box-Diagramms müssen Sie Ihre Daten auf Extremwerte prüfen. Seien Sie vorsichtig, wenn Sie nur eine kleine Datenmenge haben. Verwenden Sie bei kategorialen oder nominalen Werten stattdessen ein Balkendiagramm.

Box-Diagramme zeigen die Verteilung von Daten an

Der Begriff „Box-Diagramm“ bezeichnet ein Box-Plot nach EDA; dieses Diagramm wird auch als Box-und-Whisker-Plot oder als Tukey-Box-Plot bezeichnet. Im folgenden Abschnitt „Box-Plots nach EDA und Quantil-Box-Diagramme vergleichen“ lernen Sie weitere Arten von Box-Diagrammen kennen.

Im Folgenden sind die grundlegenden Teile eines Box-Diagramms angeführt:

  • Die Mittellinie in der Box zeigt den Median der Daten an. Die Hälfte der Daten liegt über diesem Wert, die andere darunter. Wenn die Daten symmetrisch sind, liegt der Median in der Mitte der Box. Wenn die Daten verzerrt sind, wird der Median näher am oberen oder unteren Ende der Box liegen.
  • Das obere bzw. untere Verteilungsende der Box zeigt jeweils das 75. und 25. Quantil bzw. Perzentil an. Diese beiden Quantile werden auch Quartile genannt, weil sie jeweils ein Quartal (25 %) der Daten abschneiden. Die Länge der Box stellt die Differenz zwischen diesen beiden Perzentilen dar und wird als Interquartilabstand (IQR) bezeichnet.
  • Die Linien, die aus der Box herausragen, werden als „Whiskers“ (auch „Antennen“) bezeichnet.Die Whiskers stellen die erwartete Variation der Daten dar.Die Whiskers reichen um das 1,5-Fache des IQR vom oberen und unteren Verteilungsende der Box. Wenn die Daten sich nicht bis zum Ende der Whiskers erstrecken, reichen die Whiskers bis zu den minimalen und maximalen Datenwerten.Falls Werte über oder unter das Ende der Whiskers fallen, werden sie als Punkte eingezeichnet. Diese Punkte werden häufig als Ausreißer bezeichnet. Ein Ausreißer ist extremer als die erwartete Variation. Diese Datenpunkte sollten geprüft werden, um festzustellen, ob es sich um Ausreißer oder Fehler handelt; die Whiskers umfassen keine solchen Ausreißer.

Abbildung 1 zeigt ein Box-Diagramm:

Abbildung 1: Box-Diagramm mit Perzentilbeschriftungen

Der Median liegt nahe an der Mitte der Box im Graph in Abbildung 1. Das zeigt uns, dass die Datenwerte grob symmetrisch sind. In Abbildung 4 weiter unten sehen Sie ein Beispiel für Daten, bei denen das nicht der Fall ist.

Box-Plots nach EDA und Quantil-Box-Diagramme vergleichen

Sowohl Box-Plots nach EDA als auch Quantil-Box-Diagramme zeigen den Median sowie das 25. und 75. Perzentil. Das 25. Perzentil ist gleichzeitig das 25. Quantil, d. h., 25 % der Daten sind niedriger als das 25. Quantil. Ein Quantil-Box-Diagramm fügt dem Box-Plot nach EDA das 2,5., 10., 90. und 97,5. Quantil hinzu. Abbildung 2 zeigt Quantil-Box-Diagramme und Box-Plots nach EDA für dieselben Daten.

Abbildung 2: Vergleich zwischen Quantil-Box-Diagrammen und Box-Plots nach EDA

Box-Diagramme und Histogramme vergleichen

Sowohl Box-Diagramme als auch Histogramme zeigen die Form Ihrer Daten. Beide können Ihnen dabei helfen, ungewöhnliche Datenpunkte oder Ausreißer zu erkennen. Abbildung 3 zeigt ein Box-Plot nach EDA und ein Histogramm für denselben Datensatz. In diesem Beispiel ist das Histogramm vertikal statt horizontal dargestellt.

Abbildung 3: Vergleich zwischen Box-Diagramm und Histogramm

Es kann hilfreich sein, beide Arten von Graphen für Ihre Daten einzusetzen. Das Box-Diagramm hilft Ihnen beim Erkennen von Schiefe, weil die Linie für den Median nicht in der Nähe der Box-Mitte liegt, wenn die Daten verzerrt sind. Das Box-Diagramm bietet einen besseren Anhaltspunkt für das Feststellen des 25. und 75. Perzentils als das Histogramm. Das Histogramm eignet sich dagegen besser für die Erkennung der Gesamtform Ihrer Daten als das Box-Diagramm.

Wie erstelle ich Box-Diagramme?

Früher wurden Box-Diagramme manuell erstellt. Heute nutzen die meisten Menschen Software zum Erstellen von Box-Diagrammen und vermeiden so manuelle Rechenaufgaben und Fehler. Ein Box-Diagramm basiert auf der sogenannten Fünf-Punkte-Zusammenfassung: Minimum, 25. Perzentil, Median, 75. Perzentil und Maximum eines Datensatzes. Mit diesen fünf Punkten können Sie ein Box-Diagramm erstellen. Das heißt, Sie können mit jedem beliebigen Datensatz in fünf Schritten ein Box-Diagramm erstellen:

  1. Berechnen Sie den Median, das 25. und das 75. Perzentil.
  2. Berechnen Sie den Interquartilabstand (IQR) als Differenz zwischen dem 75. und dem 25. Perzentil.
  3. Berechnen Sie die maximale Länge der Whiskers durch Multiplikation des IQR mit 1,5.
  4. Identifizieren Sie Ausreißer.
  5. Nutzen Sie die berechneten statistischen Kenngrößen, um die Ergebnisse in das Box-Diagramm einzuzeichnen.

 

Beispiel für ein Box-Diagramm

Die Müslidaten im folgenden Box-Diagramm zeigen die Ergebnissen aus der Messung der Kalorien pro Portion für 76 Arten von Müsli. Die Variable „Kalorien“ ist stetig, also ist ein Box-Diagramm sinnvoll.

Abbildung 4: Ein Box-Diagramm zeigt stetige Daten an

Diese Daten sind verschoben, denn der Median von 102 liegt viel näher am 25. Perzentil (101) als am 75. Perzentil (200).

Den Mittelwert zu einem Box-Diagramm hinzufügen

Sie können das Box-Diagramm mithilfe einer passenden Software erweitern. JMP kann einen Mittelwert-Diamanten hinzufügen, wie in Abbildung 5 zu sehen. Das obere und untere Ende des Diamanten bilden gemeinsam ein 95 %iges Konfidenzintervall für den Mittelwert ab. Die Mitte des Diamanten stellt den Stichprobendurchschnitt dar – als einen Schätzer des Populationsmittelwerts.

Abbildung 5: Box-Diagramm mit Anzeige des statistischen Mittelwerts

Bei den Müslidaten liegt der Mittelwert höher als der Median. Die Differenz zwischen Mittelwert und Median zeigt Ihnen, dass diese Daten verzerrt sind und wahrscheinlich nicht aus einer Normalverteilung stammen.

Mit JMP können Sie auch Merkmale zu Graphen hinzufügen. Das Box-Diagramm in Abbildung 6 weist eine dicke grüne Linie in der Mitte des Mittelwert-Diamants auf, was das Identifizieren der Differenz zwischen dem Mittelwert und dem Median erleichtert.

Abbildung 6: Box-Diagramm mit hinzugefügter Linie, um die Differenz zwischen dem statistischen Mittelwert und dem Median zu verdeutlichen

JMP bietet außerdem Anmerkungswerkzeuge, wie in Abbildung 7 zu sehen:

Abbildung 7: Box-Diagramm mit kurzer statistischer Zusammenfassung

Dieser Graph fasst die grundlegenden statistischen Kenngrößen zusammen und zeigt die Datenverteilung an. Außerdem hebt er die Tatsache hervor, dass die Daten verzerrt sind und nicht aus einer Normalverteilung stammen.

Box-Diagramme heben Ausreißer hervor

Box-Diagramme helfen Ihnen bei der Identifizierung interessanter Datenpunkte oder Ausreißer. Diese Werte werden als Datenpunkte eingezeichnet und liegen außerhalb der Whiskers. Abbildung 8 zeigt ein Box-Diagramm mit drei Ausreißern, die als rote Punkte über dem oberen Whisker gekennzeichnet sind. Diese drei Punkte betragen mehr als das 1,5-Fache des IQR.Punkte, die über dem 1,5-Fachen des IQR liegen, befinden sich außerhalb des erwarteten Schwankungsbereichs der Daten.

Abbildung 8: Box-Diagramm mit angezeigten Ausreißern

Die Ausreißer beeinflussen den Mittelwert, den Median und andere Perzentile.Da extreme Datenpunkte in einem Box-Diagramm hervorgehoben werden, können Sie die zu untersuchenden Datenpunkte leicht erkennen. Sie können feststellen, dass es sich bei den Ausreißern um Fehler in Ihren Daten handelt oder dass diese aus einem anderen Grund ungewöhnlich sind. Wenn die drei Ausreißer in Abbildung 8 beispielsweise außerhalb des erwarteten Wertebereichs liegen, müssen Sie untersuchen, ob es sich um gültige Datenpunkte handelt.

Beispiel für ein Box-Diagramm für Gruppen

Wenn Ihre Daten Gruppen aufweisen, können Sie mit einfaktoriellen Box-Diagrammen mehr über die Daten erfahren: Dabei handelt es sich um einfache, leistungsstarke Werkzeuge zum Gruppen vergleichen.

Eine Methode zur Messung der Fitness einer Person ist die Messung ihres Körperfettanteils. Laut den meisten Richtlinien ist eine Differenz zwischen dem Körperfettanteil von Männern und Frauen zu erwarten. (Mehr zu diesen Daten finden Sie auf der Seite Zwei-Stichproben-t-Test.) Die Variable Körperfettanteil ist stetig, also eignet sich ein Box-Diagramm zum Anzeigen der Datenverteilung. Abbildung 9 zeigt separate einfaktorielle Box-Diagramme für Männer und Frauen.

Abbildung 9: Einfaktorielle Box-Diagramme vergleichen die Streuung der Körperfettanteildaten zwischen Männern und Frauen

In diesem Graph können Sie erkennen, dass der Median für den Körperfettanteil der Frauen höher liegt als jener der Männer. Sie können auch sehen, dass sich die Bereiche für Männer und Frauen überschneiden. Die Daten für Männer sind schiefer als die Daten für Frauen. Keine Gruppe hat Ausreißer. Mit JMP könnten Sie Mittelwert-Diamanten, eine Linie für jeden Mittelwert und Anmerkungen zu diesen Box-Diagrammen hinzufügen.

Mit separaten einfaktoriellen Box-Diagrammen für Gruppen können Sie die Gruppendifferenzen besser aufzeigen und Ausreißer leichter identifizieren.

Box-Diagramme und Datenarten

 

Abbildung 10: Stetige Daten, geeignet für Box-Diagramme
Abbildung 11: Kategoriale Daten, besser geeignet für Balkendiagramme als für Box-Diagramme
Abbildung 12: Ein Box-Diagramm zeigt kategoriale Daten an, die für diesen Diagrammtyp nicht geeignet sind
Abbildung 11: Nominale Daten, besser geeignet für Balkendiagramme als für Box-Diagramme
Abbildung 14: Ein Box-Diagramm zeigt nominale Daten an, die für diesen Diagrammtyp nicht geeignet sind

Stetige Daten: geeignet für Box-Diagramme

Box-Diagramme eignen sich für stetige Daten, da diese auf einer Skala mit vielen möglichen Werten gemessen werden. Beispiele für stetige Daten sind:

  • Alter
  • Blutdruck
  • Gewichtung
  • Temperatur
  • Geschwindigkeit

Für all diese Beispiele eignet sich ein Box-Diagramm als grafisches Werkzeug, um die Verteilung der Daten zu untersuchen.

Kategoriale oder nominale Daten: Balkendiagramme benutzen

Box-Diagramme sind für kategoriale oder nominale Daten nicht sinnvoll, da sie auf einer Skala spezifischer Werte gemessen werden. Nutzen Sie dafür Balkendiagramme.

Bei kategorialen Daten wird die Stichprobe oft in Gruppen aufgeteilt und die Antworten können eine feste Reihenfolge haben. Wenn Sie zum Beispiel in einer Umfrage gebeten werden, Ihre Meinung auf einer Skala von „Stimme überhaupt nicht zu“ bis „Stimme voll und ganz zu“ anzugeben, sind Ihre Antworten kategorial.

Bei nominalen Daten ist die Stichprobe zudem in Gruppen ohne bestimmte Reihenfolge aufgeteilt. „Wohnsitzland“ wäre ein Beispiel für eine nominale Variable. Sie können den Ländercode oder Zahlen benutzen, um den Ländernamen abzukürzen. Wie Sie es auch anstellen, Sie benennen die verschiedenen Gruppen für die Daten.