Histogramm
Was ist ein Histogramm?
Ein Histogramm zeigt die Form der Werte bzw. die Verteilung für eine stetige Variable.
Wie werden Histogramme verwendet?
Histogramme helfen Ihnen, die Mitte, die Streuung und die Form eines Datensatzes zu erkennen. Sie können sie auch als visuelles Werkzeug zur Prüfung auf Normalverteilung nutzen. Histogramme sind eines der sieben Basiswerkzeuge in der statistischen Qualitätskontrolle.
Welche Fragen sollten Sie berücksichtigen?
Histogramme bieten eine großartige Möglichkeit zur Datenauswertung. Sie können damit Daten auf Extremwerte oder Ausreißer prüfen und die Verteilung Ihrer Daten nachvollziehen. Für die Auswahl der passenden statistischen Analysewerkzeuge müssen Sie die Verteilung einer Variable kennen.
Histogramme zeigen die Form von Daten
Histogramme zeigen die Form Ihrer Daten. Auf der Horizontalachse sind Ihre Datenwerte abgebildet, wobei jeder Balken einen Wertebereich umfasst. Die Vertikalachse zeigt, wie viele Punkte in Ihren Daten Werte in den angegebenen Bereich des Balkens haben. Im Histogramm in Abbildung 1 zeigen die Balken die Häufigkeit der Werte in den jeweiligen Bereichen. Der erste Balken zeigt beispielsweise die Häufigkeit der Werte, die zwischen 30 und 35 liegen.
Das Histogramm zeigt, dass die Mitte der Daten etwa um 45 liegt und sich die Daten circa von 30 bis 65 erstrecken. Außerdem zeigt die Grafik die Form der Daten als grob hügelförmig. Diese Form liefert einen visuellen Hinweis auf eine hohe Wahrscheinlichkeit für die Normalverteilung der Daten.
Welcher Unterschied besteht zwischen Histogrammen und Balkendiagrammen?
Der wichtigste Unterschied zwischen Histogrammen und Balkendiagrammen ist die Art der Daten, die dort eingezeichnet wird. Histogramme kommen bei stetigen Daten zum Einsatz, Balkendiagramme dagegen bei kategorialen oder nominalen Daten.
Histogramme weisen keine Lücken zwischen den Balken auf. Die Balken stellen auf der Horizontalachse die Anzahl der Werte dar, die in einem festgelegten Bereich beobachtet wurden.Balkendiagramme können Lücken zwischen den Balken aufweisen. Die Balken stellen die gemessenen Werte der einzelnen Kategorien dar.
Wie erstelle ich ein Histogramm?
Um ein Histogramm zu erstellen, müssen Sie den Wertebereich der Daten für jeden Balken bestimmen. Die Balkenbereiche werden als „Klassen“ bezeichnet. Meist haben die Klassen die gleiche Größe. Bei gleichen Klassen zeigt die Höhe der Balken die Häufigkeit der Datenwerte in jeder Klasse. Um zum Beispiel ein Histogramm für das Alter in Jahren zu erstellen, können Sie Klassen in Zehnerstufen festlegen (0–10, 11–20 und so weiter). Die Balkenhöhe zeigt dann die Anzahl der Menschen in der jeweiligen Zehnerstufe.
Mit Software werden die Klassen vom Programm definiert. Allerdings gestatten Ihnen einige Werkzeuge die Änderung der Klassenanzahl und der Klassen-Ausgangspunkte, sodass Sie Ihre Daten untersuchen und besser verstehen können.
Abbildung 2 zeigt dieselben Daten wie in Abbildung 1, wobei diese allerdings in viel mehr Balken unterteilt wurden. Sie können immer noch die Mitte, die Streuung und die Form der Daten sehen. Allerdings ist die Gesamtform schwieriger zu erkennen als in der ersten Abbildung.
Abbildung 3 zeigt dieselben Daten wie Abbildung 1, jedoch mit drei Balken oder Klassen. Es ist viel schwerer, Mitte, Form und Streuung der Daten zu erkennen.
Die folgende Animation zeigt, wie Sie JMP und das Anfasswerkzeug benutzen, um damit die wechselnden Klassengrenzen der Daten aus den Abbildungen 1 bis 3 zu untersuchen.
Sie können die Achsenwerte und Achseninkremente verändern, um Ihre Daten zu untersuchen, selbst wenn Ihre Software keine interaktive Untersuchung bietet.
So werden extreme Datenwerte in Histogrammen beobachtet
Histogramme werden von Extremwerten bzw. Ausreißern beeinflusst. Die Abbildungen 5 und 6 zeigen einen Datensatz, wobei jeweils ein Ausreißer ausgeschlossen bzw. eingeschlossen ist.
In den obigen Abbildungen haben beide Histogramme eine horizontale Achsenskala von 20 bis 90. Die meisten Softwarelösungen würden das Histogramm ohne den Ausreißer auf einer kleineren Skala anzeigen. Abbildung 6 verwendet dieselbe Skala, um Ausreißer in einem Histogramm zu zeigen, die größer als der Rest der Datenwerte sind. Sie können auch Ausreißer haben, die kleiner als der Rest der Datenwerte sind, oder Ausreißer an beiden Verteilungsenden Ihrer Daten.
So wird Schiefe in Histogrammen beobachtet
Nicht alle Histogramme sind symmetrisch. Histogramme zeigen die Verteilung Ihrer Daten an, wobei es viele gängige Arten von Verteilungen gibt. Beispielsweise sind Daten oft nicht symmetrisch. In der Statistik bezeichnet man solche Daten als schief oder verzerrt. Zum Beispiel ist die Akkulaufzeit von Smartphones oft verzerrt, weil einige Geräte eine viel längere Laufzeit aufweisen als der Durchschnitt.
Abbildung 7 zeigt nahezu symmetrische Daten. Wenn Sie das Diagramm in der Mitte falten würden, wären die beiden Seite in etwa deckungsgleich.
Das Histogramm in Abbildung 8 zeigt asymmetrische Daten. Diese sind nach links verzerrt, wobei ein längeres Verteilungsende von Werten gegeben ist, die nach links folgen. Die Kenngröße „Schiefe“ ist negativ.
Das Histogramm in Abbildung 9 zeigt ebenfalls asymmetrische Daten. Diese sind nach rechts verzerrt, sodass mehr Werte im Verteilungsende nach rechts folgen. Die Kenngröße „Schiefe“ ist positiv.
Wie werden in Histogrammen Gruppen in den Daten beobachtet?
Wenn Sie wissen, dass es Gruppen in Ihren Daten gibt, kann es besser sein, Histogramme für jede einzelne Gruppe zu erstellen, statt alle in ein Histogramm einzuzeichnen. Wenn Sie allerdings nicht wissen oder sich nicht sicher sind, dass/ob Gruppen vorliegen, kann das Histogramm ein Muster zeigen, mit dem Sie Gruppen in Ihren Daten entdecken können.
Der Graph in Abbildung 10 enthält beispielsweise Daten für Männer und Frauen. Wir denken, dass es einen Unterschied zwischen den Daten für Männer und Frauen geben könnte.
Diese Grafik stellt eine grobe Hügelform dar und zeigt Daten mit der Mitte bei knapp 22 und einer Streuung von 7 bis etwa 32.
In Abbildung 11 sind die Daten für Männer als gestreifter Anteil jedes Balkens dargestellt. Die Daten für Männer sehen grob hügelförmig aus.
Der Graph in Abbildung 12 zeigt die Daten für Frauen, hervorgehoben durch gestreifte Balken. Diese Daten sind ebenfalls grob hügelförmig.
Die obigen Graphen zeigen Beispiele für Situationen, in denen die Differenz zwischen Gruppen Auswirkungen hat, doch die Gesamtstreuung der Werte für die beiden Gruppen dieselbe ist. Wenn Sie die hervorgehobenen Histogramme für Männer und Frauen vergleichen, sehen Sie, dass die Männer mit höherer Wahrscheinlichkeit niedrige Werte aufweisen als die Frauen. Es gibt große Überschneidungen, doch die Histogramme unterstützen die Idee, dass es einen Unterschied zwischen Männern und Frauen gibt.
Abbildung 13 zeigt Daten, in denen die beiden Gruppen sehr verschieden sind. Wenn Sie sich das Gesamthistogramm ansehen, sind die Daten nicht hügelförmig. Der Graph zeigt die Daten für eine Gruppe, hervorgehoben mit gestreiften Balken. Diese Gruppe ist grob hügelförmig, weist eine Streuung von 5 bis 15 und eine Mitte von etwa 9 auf. Der Graph zeigt die Daten für die zweite Gruppe mit gefüllten Balken. Diese sind nicht einmal grob hügelförmig, sind von 20 bis 32 gestreut und weisen eine Mitte von 23 auf.
Diese Graphen verdeutlichen eine wichtige Überlegung: Wenn Sie ein Histogramm erstellen, sollten Sie berücksichtigen, ob Ihre Daten Gruppen aufweisen. Wenn die Möglichkeit besteht, dass es Gruppen gibt, erfahren Sie wahrscheinlich mehr über Ihre Daten, wenn Sie für jede Gruppe separate Histogramme erstellen. Einige Software-Lösungen ermöglichen Ihnen die Untersuchung von Gruppenunterschieden in einem einzigen Histogramm untersuchen, wie in den obigen Abbildungen zu sehen.
Histogramme und Datenarten
Stetige Daten: für Histogramme geeignet
Histogramme eignen sich für stetige Daten, da diese auf einer Skala mit vielen möglichen Werten gemessen werden. Beispiele für stetige Daten sind:
- Alter
- Blutdruck
- Gewichtung
- Temperatur
- Geschwindigkeit
Für all diese Beispiele eignet sich ein Histogramm als grafisches Werkzeug, um die Verteilung der Daten zu untersuchen.
Kategoriale oder nominale Daten: Balkendiagramme benutzen
Histogramme sind für kategoriale oder nominale Daten sinnvoll, da sie auf einer Skala mit nur wenigen möglichen Werten gemessen werden. Verwenden Sie Balkendiagramme statt Histogrammen.
Bei kategorialen Daten wird die Stichprobe oft in Gruppen aufgeteilt und die Antworten haben eine feste Reihenfolge. Wenn Sie zum Beispiel in einer Umfrage gebeten werden, Ihre Meinung auf einer Skala von „Stimme überhaupt nicht zu“ bis „Stimme voll und ganz zu“ anzugeben, sind Ihre Antworten kategorial.
Bei nominalen Daten ist die Stichprobe zudem in Gruppen ohne bestimmte Reihenfolge aufgeteilt. „Wohnsitzland“ wäre ein Beispiel für eine nominale Variable. Sie können den Ländercode oder Zahlen benutzen, um den Ländernamen abzukürzen. Wie Sie es auch anstellen, Sie benennen die verschiedenen Gruppen für die Daten.