Mittelwert, Median und Modus

Was ist der Mittelwert?

Der Mittelwert misst den Mittelpunkt eines Satzes von Datenwerten. Bei stetigen Daten ist der Mittelwert der Durchschnitt der Datenwerte.

Wie wird der Mittelwert verwendet?

Der Mittelwert einer Stichprobe von Datenwerten wird verwendet, um den wahren Mittelwert der unbekannten Grundgesamtheit zu schätzen. Der Mittelwert wird häufig als einfache zusammenfassende Statistik einer Reihe von Daten verwendet. Er wird in Verbindung mit der Standardabweichung zur Berechnung von statistischen Intervallen, Hypothesenprüfgrößen und Qualitätsregelkartengrenzen verwendet.

Über welche Punkte sollte man in Bezug auf den Mittelwert nachdenken?

Der Mittelwert kann durch Extremwerte beeinflusst werden. Bei Extremwerten oder einer schiefen Verteilung kann der Median ein besseres Maß für den Mittelpunkt sein. Bevor Sie den Mittelwert verwenden, überprüfen Sie Ihre Daten auf Extremwerte und sehen Sie sich ein Diagramm an, um zu prüfen, ob die Daten ungefähr symmetrisch sind.

Was ist der Median?

Der Median ist das 50. Perzentil der Stichprobendaten. Mit anderen Worten: 50 % der Datenwerte liegen über dem Median und 50 % unter dem Median. Der Median ist eine weitere Schätzung des Mittelpunkts der Daten in Ihrer Stichprobe.

Was ist der Modus?

Der Modus ist der am häufigsten vorkommende Wert in Ihren Daten. Ein Datensatz, der keine sich wiederholenden Werte enthält, hat keinen Modus. Ein Datensatz mit mehreren Werten, die sich mit der gleichen Frequenz wiederholen, kann mehrere Modi haben. Der Modus ist eine weitere Statistik, die zur Schätzung des Datenmittelpunkts verwendet wird.

Der Mittelwert beschreibt das Zentrum eines Datensatzes 

Nehmen wir an, Sie haben eine Reihe von Datenwerten und stellen diese wie in Abbildung 1 dargestellt dar. Auf der Horizontalachse sind Ihre Datenwerte abgebildet. Die Vertikalachse zeigt, wie viele Punkte einen bestimmten Datenwert haben. Statistisch gesehen handelt es sich dabei um ein Histogramm oder eine Verteilung von Datenwerten. Der Mittelwert schätzt den Mittelpunkt der Daten.

Abbildung 1: Histogramm der Datenwerte

Was ist der Mittelwert der Grundgesamtheit?

Der Mittelwert der Grundgesamtheit ist der Mittelpunkt der theoretischen Grundgesamtheit und oft unbekannt.

Lassen Sie uns über ein Beispiel nachdenken, bei dem Sie die Grundgesamtheit kennen. Angenommen, Sie möchten wissen, wie hoch die durchschnittliche Windgeschwindigkeit der atlantischen Hurrikane beim Erreichen der Küste seit 1950 ist. Dies ist eine relativ kleine Grundgesamtheit. Es liegen Daten für alle Hurrikane im Atlantik seit 1950 vor, die die Küste erreicht haben. Sie können den Mittelwert der Grundgesamtheit leicht berechnen.

In vielen Fällen werden Sie jedoch den wahren Mittelwert der Grundgesamtheit nicht kennen, weil Sie nicht über die Daten der Grundgesamtheit verfügen.

Der Mittelwert der Grundgesamtheit wird in Formeln durch den griechischen Buchstaben für „kleines m“ oder „mu“ dargestellt. Das Symbol ist μ.

Was ist der Stichprobenmittelwert?

Um den unbekannten Mittelwert der Grundgesamtheit zu schätzen, erheben Sie eine Stichprobe von Daten und berechnen dann den Mittelwert dieser Stichprobe.

Der Stichprobenmittelwert misst den Mittelpunkt der Daten in Ihrer Stichprobe. Dies ist eine Schätzung des Mittelwerts der Grundgesamtheit.

Das statistische Symbol für den Stichprobenmittelwert in Formeln ist ein x mit einer Linie oder einem Balken darüber; es wird „x quer“ genannt und sieht so aus: .

Was ist der Unterschied zwischen dem Stichprobenmittelwert, dem arithmetischen Mittelwert und dem Stichprobendurchschnitt?

Dies sind drei Begriffe, die für den Stichprobenmittelwert verwendet werden. Sie sind gleich.

Da der Mittelwert der Grundgesamtheit oft unbekannt ist, wird anstelle von „Stichprobenmittelwert“ der Begriff „Mittelwert“ verwendet. Wenn Sie Artikel lesen, in denen das „durchschnittliche Einkommen“ oder die „durchschnittliche Temperatur“ erwähnt werden, beziehen sich diese Artikel normalerweise auf den Mittelwert der Stichprobendaten.

Es stimmt nicht, dass 50 % „überdurchschnittlich“ sind

Viele Menschen machen den häufigen Fehler, anzunehmen, dass 50 % der Datenwerte über und 50 % unter dem Stichprobenmittelwert liegen. Dies ist oft nicht der Fall. Bei diesem Fehler werden der Mittelwert und der Median verwechselt. Der Mittelwert und der Median sind nur in einigen Situationen identisch.

So berechnen Sie den Mittelwert

Um den Mittelwert zu berechnen, addieren Sie alle Zahlen für die Datenwerte in der Stichprobe und dividieren dann durch die Anzahl der Datenwerte, die Sie haben. Lassen Sie uns diese Berechnung anhand eines einfachen Beispiels untersuchen.

Angenommen, Ihre Datenwerte sind 4, 5 und 6. So berechnen Sie den Mittelwert:

$\frac{(4+5+6)}{3} = \frac{15}{3} = 5$

Normalerweise verwenden Sie eine Software, um den Mittelwert zu berechnen. Die Formel für den Mittelwert lautet:

$\overline{x}=\frac{Σx_i}{n}$

In der obigen Formel hat das Beispiel n Datenwerte. Jeder Datenwert wird durch xi dargestellt. Das Summensymbol $Σ$ bedeutet, dass die Datenwerte addiert werden sollen, genau wie im Beispiel.

Für den unbekannten Mittelwert der Grundgesamtheit wird die Größe der Grundgesamtheit häufig als großes N dargestellt. In der seltenen Situation, in der Sie den Mittelwert der Grundgesamtheit berechnen können, ist die Formel dieselbe und verwendet N anstelle von n.

Der Median

Der Median ist das 50. Perzentil der Stichprobendaten. Es ist immer so, dass 50 % der Datenwerte über dem Median und 50 % unter dem Median liegen. Genau wie beim Mittelwert haben wir einen wahren unbekannten Median der Grundgesamtheit und einen Stichprobenmedian. Der wahre Median der Grundgesamtheit ist selten bekannt.

Sowohl der Mittelwert als auch der Median schätzen den Mittelpunkt Ihrer Daten, und beide werden häufig angegeben. Wie wir weiter unten sehen werden, wird der Median weniger von extremen Datenwerten oder nicht symmetrischen Daten beeinflusst.

So berechnen Sie den Median

Um den Median zu berechnen, ordnen Sie zunächst die Stichprobendatenwerte von niedrig nach hoch und ermitteln dann den mittleren Wert.

Dies ist mit ein paar einfachen Beispielen leichter zu verstehen.

Angenommen, Ihre Datenwerte sind wieder 4, 5 und 6.

Ordnen Sie zunächst die Werte von niedrig nach hoch: 4 – 5 – 6. 

Der mittlere Wert, der in diesem Beispiel 5 ist, ist der Median. Die Hälfte der Daten liegt über dem Median, die andere darunter.

Ein zweites Beispiel: Angenommen, Sie haben eine gerade Anzahl von Datenwerten in Ihrer Stichprobe, sagen wir 7, 4, 5 und 6. Es gibt keinen einzigen Mittelwert.

Ordnen Sie zunächst die Datenwerte von niedrig nach hoch: 4 – 5 – 6 – 7.

Danach ermitteln Sie die beiden mittleren Werte: 5 und 6. 

Als nächsten Schritt nehmen Sie den Durchschnitt dieser beiden Werte, indem Sie die beiden Werte addieren und durch 2 dividieren. Das Ergebnis ist der Median. In unserem Beispiel:

$\frac{5+6}{2} = \frac{11}{2} = 5,5$

In beiden Beispielen ist der Median der mittlere Wert. Die Hälfte der Stichprobendaten liegt über dem Median und die andere Hälfte darunter.

Für das zweite Beispiel haben wir 4, 5, 5,5, 6, 7, also liegt der Median von 5,5 in der Mitte der geordneten Stichprobenwerte für die Daten.

In der Regel verwenden Sie eine Software, um den Median zu berechnen.

Der Modus

Der Modus ist eine weitere Statistik, die zur Schätzung des Datenmittelpunkts verwendet wird. Der Modus ist der am häufigsten vorkommende Wert.

Angenommen, Ihre Datenwerte sind 3, 4, 4, 4, 5 und 6. 

Der Modus ist 4, weil dies der häufigste Wert ist.

Die meisten Statistikprogramme berechnen den Modus. In der Praxis wird der Modus jedoch nicht so oft verwendet wie der Mittelwert oder der Median; wir werden uns für den Rest dieser Seite auf die beiden letztgenannten konzentrieren.

Wie sich extreme Datenwerte auf den Stichprobenmittelwert und den Stichprobenmedian auswirken

Der Stichprobenmittelwert kann empfindlich auf extreme Datenwerte reagieren. Nehmen wir an, dass die Beispieldatenwerte nun 4, 5 und 12 sind, wobei wir das obige Beispiel leicht abändern.

Der Stichprobenmittelwert ist: 

$\frac{4+5+12}{3} = \frac{21}{3} = 7$

Der Stichprobenmedian ist der Mittelwert der geordneten Datenwerte 4 – 5 – 12, also 5.

Vergleichen Sie dies mit dem vorherigen Beispiel. Die Datenwerte 4, 5 und 6 hatten einen Mittelwert und Median von 5. Durch Ändern eines einzelnen Datenwerts von 6 auf 12 änderte sich der Median nicht, aber der Mittelwert änderte sich von 5 auf 7. 

Bei größeren Datensätzen kann ein einzelner extremer Datenwert einen größeren Einfluss auf den Stichprobenmittelwert, aber einen geringeren Einfluss auf den Stichprobenmedian haben. Wir sagen, dass der Median robust gegenüber Ausreißern oder extremen Datenwerten ist.

Die folgenden Verteilungen zeigen einen Datensatz ohne Ausreißer (Abbildung 2) und dann mit Ausreißer (Abbildung 3).

Abbildung 2: Verteilung des Datensatzes ohne Ausreißer
Abbildung 3: Verteilung des Datensatzes mit Ausreißer

Beide Datensätze haben einen Median von 44,6. Die Daten ohne den Ausreißer haben einen Mittelwert von 45,3 und die Daten mit dem Ausreißer einen Mittelwert von 45,6. Beide Histogramme haben eine Achsenskala von 20 bis 90.

VORSICHT! Löschen Sie keinen extremen Datenwert, nur weil er vorhanden ist. Sie sollten versuchen herauszufinden, ob der extreme Datenwert ein Fehler oder eine Anomalie ist. Wenn es sich um einen Fehler handelt, sollten Sie versuchen, den Wert zu korrigieren. Wenn Sie den Wert nicht als Fehler identifizieren können, sollten Sie den extremen Datenwert nicht weglassen. In dieser Situation können Sie selbst entscheiden, Ihre Analyse sowohl mit als auch ohne den fragwürdigen Datenpunkt zu erstellen.

Nehmen wir zum Beispiel an, Sie sammeln Blutdruckdaten. Eine Person in Ihrer Probe hat einen systolischen Blutdruck von 95. Dies ist ein niedriger, aber angemessener Wert. Dieselbe Person hat jedoch einen diastolischen Blutdruck von 95. Es ist sehr unwahrscheinlich, dass das richtig ist. Sie sollten sich die Originaldaten anschauen und herausfinden, ob dieser Datenpunkt ein Fehler ist.   

Wie sich die Datensymmetrie auf den Stichprobenmittelwert und den Stichprobenmedian auswirkt

Der Stichprobenmittelwert und der Stichprobenmedian sind unterschiedlich, wenn Ihre Daten nicht symmetrisch sind. Wenn Daten nicht symmetrisch sind, spricht man von einer schiefen Verteilung.

Betrachten Sie drei Verteilungen: symmetrisch, linksschief und rechtsschief.

Das Histogramm in Abbildung 4 unten zeigt nahezu symmetrische Daten. Wenn Sie das Diagramm in der Mitte falten würden, wären die beiden Seiten in etwa deckungsgleich. Mittelwert und Median sind sehr ähnlich.

Das Histogramm in Abbildung 5 zeigt asymmetrische Daten. Diese Daten werden stärker auf die niedrigeren Werte gewichtet. Es ist nach links geneigt. Die Schiefe-Statistik ist negativ und der Mittelwert ist kleiner als der Median.

Das Histogramm in Abbildung 6 zeigt ebenfalls asymmetrische Daten. Diese Daten werden stärker auf die höheren Werte gewichtet. Es ist nach rechts geneigt. Die Schiefe-Statistik ist positiv und der Mittelwert ist größer als der Median.

Abbildung 4: Verteilung nahezu symmetrischer Daten
Abbildung 5: Nicht-symmetrische linksschiefe Daten
Abbildung 6: Nicht-symmetrische rechtsschiefe Daten

Wann sind Mittelwert und Median zu verwenden?

Die Abbildungen 7–9 zeigen die Datentypen, für die der Mittelwert und der Median geeignet sind.

Abbildung 7: Verteilung der stetigen Daten, für die Stichprobenmittelwert und Stichprobenmedian berechnet werden können.
Abbildung 8: Verteilung der ordinalen Daten, für die der Stichprobenmittelwert und der Stichprobenmedian nicht berechnet werden sollten.
Abbildung 9: Verteilung der nominalen Daten, für die der Stichprobenmittelwert und der Stichprobenmedian nicht berechnet werden sollten.

Stetige Daten: Mittelwert und Median sind angemessen

Mittelwert und Median sind für stetige Daten sinnvoll. Diese Daten werden auf einer Skala mit vielen möglichen Werten gemessen. Beispiele für stetige Daten sind:

  • Alter
  • Blutdruck
  • Gewichtung
  • Temperatur
  • Geschwindigkeit

Für all diese Beispiele ist es sinnvoll, den Mittelwert und den Median zu berechnen.

Ordinale oder nominale Daten: Mittelwert und Median sind nicht anwendbar

Mittelwert und Median sind für ordinale oder nominale Daten nicht sinnvoll, da diese Datentypen auf einer Skala mit nur wenigen möglichen Werten gemessen werden.

Bei ordinalen Daten wird die Stichprobe in Gruppen aufgeteilt und die Antworten haben eine feste Reihenfolge. Wenn Sie zum Beispiel in einer Umfrage gebeten werden, Ihre Meinung auf einer Skala von „Stimme überhaupt nicht zu“ bis „Stimme voll und ganz zu“ (Abbildung 8) anzugeben, sind Ihre Antworten ordinal.

Bei nominalen Daten ist die Stichprobe zudem in Gruppen ohne bestimmte Reihenfolge aufgeteilt. Zwei Beispiele sind das biologische Geschlecht und das Wohnsitzland. In seltenen Fällen, in denen nominale Daten mit einem numerischen Wert codiert sind, können Sie Mittelwerte berechnen. Die Interpretation des Mittelwerts hängt von der Kodierung ab. Wenn die Geschlechter beispielsweise mit 0 für Männer und 1 für Frauen kodiert werden und der Stichprobendurchschnitt berechnet wird, erhalten Sie möglicherweise einen Wert von 0,6. Dieser Wert entspricht dem Anteil der Frauen in Ihrer Stichprobe, was sinnvoll ist. Wenn Sie für das Land den Ländernamen mit numerischen Werten codieren würden, könnten Sie einen Mittelwert berechnen. Dies würde jedoch keinen Sinn ergeben, denn der Mittelwert hätte keine sinnvolle Interpretation.