Normalverteilung

Was ist eine Normalverteilung?

Die Normalverteilung ist eine theoretische Verteilung von Werten für eine Grundgesamtheit. Daten mit einer Normalverteilung neigen dazu, sich um einen zentralen Wert herum anzusammeln. Die Häufigkeit von Werten oberhalb und unterhalb des zentralen Werts nimmt symmetrisch ab, was in einem Diagramm oft als Glockenkurve bezeichnet wird.

Wie wird die Normalverteilung verwendet?

Bei vielen statistischen Analysemethoden wird davon ausgegangen, dass die Daten aus einer Normalverteilung stammen. Wenn dies nicht der Fall ist, ist die Analyse möglicherweise nicht korrekt.

Kann ich überprüfen, ob meine Daten „normal“ sind?

Ja. Sie können einfache Sichtprüfungen durchführen. Die meisten Statistikprogramme führen einen formalen statistischen Test durch.

Definition der Normalverteilung

Erfahren Sie, wie Sie die Normalität mithilfe von Statistiksoftwarebeurteilen können

Die Normalverteilung ist eine theoretische Verteilung von Werten für eine Grundgesamtheit und hat eine präzise mathematische Definition. Datenwerte, die eine Stichprobe aus einer Normalverteilung darstellen, werden als „normalverteilt“ bezeichnet. Anstatt uns jedoch mit diesem komplexen mathematischen Konzept zu befassen, betrachten wir lieber die nützlichen Eigenschaften der Normalverteilung und erklären, warum diese für Analysen so wichtig ist.

Zunächst einmal: Warum ist die Normalverteilung für uns von Bedeutung?

  • Viele Messungen sind normalverteilt oder nahezu normalverteilt. Beispiele sind Größe, Gewicht und Herzfrequenz. Beachten Sie, dass alle diese Werte auf einer Skala mit vielen möglichen Werten gemessen werden.
  • Viele Durchschnittswerte von Messungen sind normalverteilt oder nahezu normalverteilt. Zum Beispiel ist Ihre tägliche Pendelzeit möglicherweise nicht normalverteilt. Aber der monatliche Durchschnitt Ihrer täglichen Pendelzeit ist wahrscheinlich normal verteilt.
  • Viele statistische Verfahren setzen voraus, dass die Daten normalverteilt sind. In diesem Fall werden Sie lesen, dass die Methode „von normalverteilten Daten ausgeht“ oder „von Normalität ausgeht“.

Eine Ihrer ersten Aktionen für eine Reihe von Datenwerten sollte darin bestehen, sich die Form der Daten anzusehen. Die Normalverteilung hat eine symmetrische Form. Sie wird manchmal als Glockenkurve bezeichnet, weil ein Diagramm der Verteilung wie eine Glocke aussieht, die auf dem Boden steht.

Abbildung 1 unten zeigt ein Histogramm für einen Satz von Beispieldatenwerten zusammen mit einer theoretischen Normalverteilung (die gekrümmte blaue Linie). Das Histogramm ist eine Art Balkendiagramm, das die Häufigkeit von Datenwerten anzeigt. Sie können sehen, dass die Daten nicht genau mit der Kurve übereinstimmen, was üblich ist. Wenn Sie nämlich Daten sehen, die genau einer theoretischen Normalverteilung entsprechen, werden Sie viele Fragen stellen wollen. Daten aus dem wirklichen Leben entsprechen selten exakt einer Verteilung.

Abbildung 1: Histogramm nahezu normalverteilter Daten

Zusammenfassung der Merkmale

Die Normalverteilung weist die folgenden Merkmale auf:

  1. Sie wird vollständig durch den Mittelwert und die Standardabweichung definiert.
  2. Der Mittelwert, der Median und der Modus sind alle identisch.
  3. Sie ist symmetrisch.
  4. Sie ist glockenförmig.

Jedes Merkmal ist von Bedeutung und sagt Ihnen etwas über Ihre Daten. Schauen wir uns das einmal genauer an:

1. Vollständig durch Mittelwert und Standardabweichung definiert

Wir benötigen nur zwei Werte – den Mittelwert und die Standardabweichung –, um ein Bild einer bestimmten Normalverteilung zu zeichnen. (Um die Beziehung zwischen dem Mittelwert und der Standardabweichung für normalverteilte Daten weiter zu untersuchen, lesen Sie mehr über die empirische Regel.)

Der Mittelwert und die Standardabweichung werden als die Parameter der Normalverteilung bezeichnet. Alle Verteilungen haben Parameter, und einige haben mehr als zwei. In jeder Situation definieren die Parameter eine bestimmte Verteilung.

Schauen wir uns einige Beispiele für Normalverteilungskurven an.

Abbildung 2 zeigt zwei Normalverteilungen mit jeweils dem gleichen Mittelwert von 30. Die dünnere, längere Verteilung (blau) hat eine Standardabweichung von 5. Die breitere, kürzere Verteilung in Orange hat eine Standardabweichung von 10.

Abbildung 2: Zwei Normalverteilungen mit gleichem Mittelwert und unterschiedlichen Standardabweichungen

Abbildung 3 zeigt außerdem zwei Normalverteilungen, die jeweils die gleiche Standardabweichung von 5 haben. Der linke, orange dargestellte Wert hat einen Mittelwert von 20, während der rechte, blau dargestellte Wert einen Mittelwert von 40 hat.

Abbildung 3: Zwei Normalverteilungen mit unterschiedlichen Mittelwerten und gleicher Standardabweichung

Abbildung 4 zeigt erneut zwei Normalverteilungen. Die orange dargestellte Verteilung hat einen Mittelwert von 30 und eine Standardabweichung von 10. Die blau dargestellte Verteilung hat einen Mittelwert von 40 und eine Standardabweichung von 5.

Abbildung 4: Zwei Normalverteilungen mit unterschiedlichen Mittelwerten und Standardabweichungen

2. Mittelwert = Median = Modus

Mittelwert, Median und Modus sind drei Möglichkeiten, den zentralen Wert einer Reihe von Datenwerten zu messen. Für eine echte Normalverteilung sind diese drei identisch. In der Praxis sind Ihre Daten wahrscheinlich fast normal. Der Mittelwert, der Median und der Modus liegen wahrscheinlich sehr nahe beieinander, sind aber nicht identisch.

Abbildung 5: Echte Normalverteilung, bei der Mittelwert, Median und Modus gleich sind

3. Symmetrisch

Die Normalverteilung ist symmetrisch. Wenn man sich vorstellt, dass man das Diagramm am Mittelwert in der Mitte faltet, sind beide Seiten gleich groß.

4. Glockenförmig

Die Normalverteilung ist glockenförmig mit einem zentralen „Buckel“, der in den obigen Beispielen zu sehen ist.

Abbildung 6 zeigt eine Verteilung, die nicht-normal ist. Sie hat zwei Höcker statt einem. Eine Verteilung mit zwei Höckern könnte darauf hindeuten, dass es verschiedene Gruppen gibt, die in den Daten vermischt sind. So sind beispielsweise die Herzfrequenzen in der Regel normalverteilt. Aber nehmen wir an, Sie wissen nicht, dass die Daten die Ruheherzfrequenz für zwei Gruppen enthalten: Sportler und inaktive Menschen. Möglicherweise erhalten Sie eine bimodale Verteilung wie die untenstehende.

Abbildung 6: Nicht-normale, bimodale Verteilung

Wenn sie nicht normal ist, ist sie dann abnormal?

Wenn Ihre Daten nicht „normal“ sind, bedeutet das, dass sie abnormal sind? Nein. Bedeutet das, dass Ihre Daten schlecht sind? Nein. Verschiedene Datentypen haben unterschiedliche zugrundeliegende Verteilungen.

Es gibt viele mögliche theoretische Verteilungen. Viele statistische Verfahren setzen voraus, dass die Daten einer Normalverteilung entsprechen. Wenn dies nicht der Fall ist, können Sie andere Methoden verwenden.

In der Praxis werden Sie feststellen, dass die Daten oft „nahezu normal“ sind. Es gibt einige einfache visuelle Tools zur Überprüfung auf Normalität und die meisten Softwarepakete verfügen über formale statistische Tests auf Normalität. 

Welche Beispiele gibt es für nicht normalverteilte Daten?

  • Einzelne Würfe mit einem sechsseitigen Würfel
  • Münzwürfe
  • Kontrollen/Fehlerprüfungen in der Fertigung
  • Wartezeit in einer Warteschlange
  • Zeit bis zum Ausfall von Batterien oder anderer Elektronik
  • Dateigrößen von Videos, die im Internet veröffentlicht werden

Auch wenn die Beispiele nicht normalverteilt sind, gibt es Analysemethoden für diese Art von Daten.

Visuelle Tools zur Überprüfung auf Normalität

Verwendung eines Histogramms

Wie oben erwähnt ist ein Histogramm eine spezielle Art von Häufigkeitsbalkendiagramm für kontinuierliche Variablen. Mithilfe dieses Diagramms können Sie erkennen, ob die Daten einer allgemeinen Glockenkurve folgen oder nicht. Mit einigen Softwarepaketen können Sie Ihrem Histogramm auch eine Normalkurve als visuellen Vergleich hinzufügen.

Abbildung 7 zeigt ein Beispiel eines Histogramms für Daten, die nicht aus einer Normalverteilung stammen. 

Abbildung 7: Histogramm für Daten, die nicht-normal sind

Wenn Sie ein Histogramm zur visuellen Überprüfung der Normalität betrachten, prüfen Sie, ob das Diagramm:

  • Extremwerte hat oder nicht.
  • Einer symmetrischen Kurve folgt, die auf beiden Seiten nahezu gleich ist.
  • Glockenförmig ist oder nicht.

Wie Sie sehen können, weist Abbildung 7 Extremwerte auf, ist nicht symmetrisch und nicht glockenförmig.

Verwendung eines Box-Diagramms

Ein Box-Diagramm für eine Normalverteilung zeigt, dass der Mittelwert mit dem Median identisch ist. Es zeigt auch, dass die Daten keine Extremwerte haben. Die Daten werden symmetrisch sein.

Schauen Sie sich die beiden Box-Diagramme in den Abbildungen 8 und 9 unten an. Die Daten in Abbildung 8 stammen aus einer nahezu normalen Verteilung. Die Daten in Abbildung 9 stammen aus einer nicht-normalen Verteilung. 

Wenn Sie ein Box-Diagramm zur visuellen Überprüfung der Normalität betrachten, achten Sie darauf, ob das Diagramm Folgendes aufweist:

  • Extremwerte. Das Diagramm für die nicht-normale Verteilung in Abbildung 9 zeigt drei Ausreißer als rote Punkte. Das Diagramm für die nahezu normale Verteilung in Abbildung 8 zeigt keine Ausreißer.
  • Symmetrie. Das Diagramm für die nahezu normale Verteilung (Abbildung 8) ist symmetrisch, während das Diagramm für die nicht-normale Verteilung (Abbildung 9) dies nicht ist. 
  • Mittelwert und Median fast gleich. In diesen Box-Diagrammen stellt die horizontale schwarze Mittellinie in der Box den Median und die blaue Linie den Mittelwert dar. Für die nahezu normale Verteilung in Abbildung 8 ist die blaue Linie für den Mittelwert fast identisch mit der Linie in der Mitte der Box für den Median.
Abbildung 8: Box-Diagramm für eine nahezu normale Verteilung
Abbildung 9: Box-Diagramm für nicht-normale Daten

Verwendung eines Diagramms der Normal-Quantile

Ein Diagramm der Normal-Quantile zeigt eine Normalverteilung als gerade Linie statt als Glockenkurve. Wenn Ihre Daten normal sind, liegen die Datenwerte nahe an der Geraden. Wenn Ihre Daten nicht-normal sind, weichen die Datenwerte von der geraden Linie ab. Das Muster der Daten im Diagramm kann Ihnen helfen zu verstehen, warum Ihre Daten nicht-normal verteilt sind. 

Abbildung 10 zeigt ein Diagramm der Normal-Quantile für Daten aus einer Normalverteilung. Sie können sehen, dass die meisten Datenwerte in der Nähe der durchgezogenen roten Linie liegen. Die Datenwerte liegen ebenfalls alle innerhalb der gestrichelten roten Konfidenzintervalle. 

Abbildung 11 zeigt Daten, die nicht aus einer Normalverteilung stammen. Einige der Datenwerte liegen in der Nähe der durchgezogenen roten Linie, die meisten jedoch nicht. Einige der Datenwerte liegen außerhalb der gestrichelten roten Konfidenzintervalle. Es gibt auch einige Extremwerte in der oberen rechten Ecke. 

Abbildung 10: Diagramm der Normal-Quantile für normalverteilte Daten.
Abbildung 11: Diagramm der Normal-Quantile für nicht normalverteilte Daten.

Die meisten Statistikprogramme können Diagramme der Normal-Quantile erstellen. Wenn Sie ein Diagramm der Normal-Quantile auf Normalität prüfen, schauen Sie, ob die Daten:

  • Extremwerte hat oder nicht.
  • Hauptsächlich der Linie folgen, die die Normalverteilung anzeigt.
  • Die meiste Zeit innerhalb der Konfidenzintervalle liegen. 

Wann ist die Normalverteilung zu verwenden?

Stetige Daten: JA

Die Normalverteilung eignet sich für stetige Daten, da diese Daten auf einer Skala mit vielen möglichen Werten gemessen werden. Beispiele für stetige Daten sind:

  • Alter
  • Blutdruck
  • Gewichtung
  • Temperatur
  • Geschwindigkeit

Für alle diese Beispiele ist es sinnvoll, den Einsatz von Methoden in Betracht zu ziehen, die eine Normalverteilung voraussetzen. Bedenken Sie jedoch, dass nicht alle stetigen Daten einer Normalverteilung folgen. Zeichnen Sie Ihre Daten auf und überlegen Sie, was Ihre Daten darstellen, bevor Sie eine Methode anwenden, die von Normalität ausgeht.

Ordinale oder nominale Daten: NEIN

Die Normalverteilung ist für rohe ordinale oder rohe nominale Daten nicht sinnvoll, da diese Daten auf einer Skala mit nur wenigen möglichen Werten gemessen werden.

Bei ordinalen Daten wird die Stichprobe in Gruppen aufgeteilt und die Antworten haben oft eine feste Reihenfolge. Wenn Sie zum Beispiel in einer Umfrage gebeten werden, Ihre Meinung auf einer Skala von „Stimme überhaupt nicht zu“ bis „Stimme voll und ganz zu“ anzugeben, sind Ihre Antworten ordinal.

Bei nominalen Daten ist die Stichprobe zudem in Gruppen ohne bestimmte Reihenfolge aufgeteilt. Zwei Beispiele sind das biologische Geschlecht und das Wohnsitzland. Sie können M für männlich und F für weiblich in Ihrer Stichprobe verwenden, oder Sie können 0 und 1 verwenden. Für das Land können Sie die Länderabkürzung oder Zahlen verwenden, um den Ländernamen zu codieren. Auch wenn Sie für diese Daten Zahlen verwenden, ergibt die Anwendung der Normalverteilung keinen Sinn.

Weitere Themen

Test auf Normalverteilung

Die meisten Statistik-Softwarepakete enthalten formale Tests auf Normalität. Bei diesen Tests wird davon ausgegangen, dass die Daten aus einer Normalverteilung stammen. Die Testaktivität verwendet dann die Daten, um zu überprüfen, ob diese Annahme gerechtfertigt ist oder nicht. 

Verwendung einer t-Verteilung

Die Normalverteilung ist eine theoretische Verteilung. Sie ist vollständig durch den Mittelwert der Grundgesamtheit und die Standardabweichung der Grundgesamtheit definiert.

In der Praxis kennen wir die Werte der Grundgesamtheit für diese beiden Statistiken fast nie. 

Die t-Verteilung ist der Normalverteilung sehr ähnlich. Sie verwendet den Stichprobenmittelwert und die Stichprobenstandardabweichung. Da sie diese geschätzten Werte verwendet, ist für die vollständige Definition ein weiterer Parameter erforderlich.

Der zusätzliche Parameter ist der Freiheitsgrad, der einfach der Stichprobengröße minus 1 entspricht. Wenn die Stichprobengröße ist, werden die Freiheitsgrade als n-1 angezeigt. Eine einfache Möglichkeit, sich dies zu merken, ist, dass die t-Verteilung eine Art „Korrekturfaktor“ in den Freiheitsgraden hat. Mit diesem Korrekturfaktor wird der Tatsache Rechnung getragen, dass die Verteilung auf dem Mittelwert und der Standardabweichung der Stichprobe und nicht auf den unbekannten Werten der Grundgesamtheit basiert.