Standardabweichung

Was ist die Standardabweichung?

Die Standardabweichung misst die Streuung einer Reihe von Datenwerten. Eine hohe Standardabweichung weist auf eine große Streuung von Datenwerten hin, während eine niedrige Standardabweichung auf eine geringe Streuung von Werten hinweist, die um den Mittelwert des Datensatzes gruppiert sind.

Wie wird die Standardabweichung verwendet?

Die Standardabweichung wird verwendet, um die Variabilität in einem Satz von Datenwerten zu untersuchen. Sie wird außerdem in Verbindung mit dem Mittelwert zur Berechnung von statistischen Intervallen, Hypothesenprüfgrößen und Qualitätsregelkartengrenzen verwendet.

Über welche Punkte sollte man in Bezug auf die Standardabweichung nachdenken?

Die Standardabweichung kann durch Extremwerte und/oder kleine Datensätze beeinflusst werden. Bedenken Sie unbedingt, wie sich Ausreißer auf Ihre Analyse auswirken können. Außerdem ist die Standardabweichung nur für stetige Daten relevant.

Die Standardabweichung beschreibt die Streuung eines Datensatzes.

Nehmen wir an, Sie haben eine Reihe von Datenwerten und stellen diese wie in den folgenden Diagrammen dar. Auf der Horizontalachse sind Ihre Datenwerte abgebildet. Die Vertikalachse misst die Häufigkeit jedes Datenwerts. Statistisch gesehen ist dies ein Histogramm oder eine Verteilung von Datenwerten. Die Standardabweichung ist eine einzelne Zahl, die die Streuung oder Breite der Daten schätzt.

Abbildung 1: Histogramm von Datenwerten mit großer Streuung
Abbildung 2: Histogramm von Datenwerten mit geringer Streuung

Standardabweichung der Grundgesamtheit

In der Statistik ist die Grundgesamtheit der gesamte Datensatz, den man zu verstehen versucht und aus dem man Schlüsse ziehen möchte. In vielen Fällen ist es aufgrund der schieren Größe der Grundgesamtheit unmöglich, Daten über jedes Element einer Grundgesamtheit zu erheben. In diesen Situationen misst die Standardabweichung der Grundgesamtheit die Streuung der theoretischen Grundgesamtheit und ist fast immer unbekannt.

Denken wir an ein Beispiel, bei dem Sie die Grundgesamtheit kennen. Nehmen wir an, Sie möchten wissen, wie sich die Windgeschwindigkeiten der atlantischen Hurrikane beim Erreichen der Küste seit 1950 entwickelt haben. Dies ist eine relativ kleine Grundgesamtheit. Da Daten für alle Hurrikane im Atlantik, die seit 1950 die Küste erreicht haben, leicht verfügbar sind, können Sie die Standardabweichung der Grundgesamtheit berechnen.

Was ist die Stichprobenstandardabweichung?

Um die unbekannte Standardabweichung der Grundgesamtheit zu schätzen, erheben Sie eine Stichprobe von Daten. Dann berechnen Sie die Standardabweichung dieser Stichprobe. Die Stichprobenstandardabweichung misst die Streuung der Daten in Ihrer Stichprobe. Dies ist eine Schätzung der Standardabweichung der Grundgesamtheit.

Was ist der Unterschied zwischen der Standardabweichung und der Varianz?

Die Standardabweichung ist die Quadratwurzel der Varianz. Sowohl die Standardabweichung als auch die Varianz sind Maße für die Streuung. Die Standardabweichung wird in denselben Einheiten wie Ihre Daten angegeben. Wenn Sie beispielsweise das Alter in Jahren messen, wird die Standardabweichung auch in Jahren angegeben. Dies ist ein Grund dafür, dass häufig die Standardabweichung anstelle der Varianz verwendet wird. Das „Alter in Jahren“ ist einfacher zu verstehen als das „Quadrat des Alters in Jahren“.

Was ist der Unterschied zwischen der Standardabweichung und dem Variationskoeffizienten (CV)?

Der Variationskoeffizient oder CV ist die Standardabweichung geteilt durch den Mittelwert. Der CV wird verwendet, um die Standardabweichung von Datensätzen auf einer gemeinsamen Skala zu vergleichen. Der CV wird als Indikator für die Genauigkeit eines Messsystems verwendet.

Was sind die möglichen Werte der Standardabweichung?

Die Standardabweichung ist fast immer ein positiver Wert. Eine Ausnahme: Wenn alle Werte in Ihrem Datensatz gleich sind, ist die Standardabweichung Null. Die Daten weisen keine Variabilität oder Streuung auf.

So berechnen Sie die Standardabweichung

Um die Stichprobenstandardabweichung zu berechnen, berechnen Sie zunächst den Mittelwert der Stichprobe. Ermitteln Sie dann für jeden Datenwert die Differenz zwischen dem Wert und dem Stichprobenmittelwert. Als nächstes quadrieren Sie diese Differenzen und summieren sie. Teilen Sie diese Summe schließlich durch die Anzahl der Datenwerte minus eins, um die Stichprobenvarianz zu erhalten. Um die Standardabweichung zu erhalten, nehmen Sie die Quadratwurzel. Die Standardabweichung wird in denselben Einheiten wie die Daten angegeben.

Lassen Sie uns diese Berechnung anhand eines einfachen Beispiels untersuchen. Nehmen wir an, Sie messen die Ruheherzfrequenz von sechs Personen. Die meisten Menschen haben eine Ruheherzfrequenz zwischen 60 und 100 Schlägen pro Minute (BPM). Sportler können eine gesunde Ruheherzfrequenz von nur 40 haben. Eine hohe Herzfrequenz kann ein Gesundheitsrisiko darstellen oder einfach eine Folge der Herzfrequenzmessung beim Training sein.

Angenommen, Ihre Datenwerte sind:

55
60
65
75
80
85

Berechnen Sie zunächst den Mittelwert der Stichprobe, indem Sie die Datenwerte addieren und durch die Anzahl der Werte dividieren:

$\frac{(55+60+65+75+80+85)}{6} = \frac{420}{6} = 70$

Berechnen Sie als Nächstes die Differenz zwischen den einzelnen Datenwerten und dem Stichprobenmittelwert:

Differenz zum Mittelwert
55-70 = -15
60-70 = -10
65-70 = -5
75-70 = 5
80-70 = 10
85-70 = 15

Durch die Berechnung der Differenzen erhalten Sie eine Vorstellung davon, wie weit jeder Datenwert vom Stichprobenmittelwert entfernt ist.

Als Nächstes quadrieren Sie die Differenzen. Wenn Sie die Unterschiede einfach addieren würden, käme Null raus, was darauf schließen lassen würde, dass es in den Daten keine Streuung gibt. Das stimmt aber nicht. Wenn man die Differenzen quadriert, bevor man sie addiert, erhält man ein positives Maß für den Abstand vom Mittelwert sowohl für die Punkte oberhalb als auch unterhalb des Stichprobenmittelwerts.

Differenz zum MittelwertQuadrierte Differenz
55-70 = -15225
60-70 = -10100
65-70 = -525
75-70 = 525
80-70 = 10100
85-70 = 15225

Als Nächstes nehmen wir die Summe der quadrierten Differenzen:

$225+100+25+25+100+225=700$

Da es sechs Datenwerte gibt, dividieren Sie die obige Summe durch 6 – 1 = 5:

$\frac{700}{5} = 140$

Warum nicht durch 6 teilen? Die einfache Antwort ist, dass bei diesen Berechnungen der Stichprobenmittelwert verwendet wurde. Wenn Sie den Stichprobenmittelwert und fünf Datenwerte kennen, können Sie den sechsten Datenpunkt berechnen. In diesem Beispiel wird bei der Berechnung des Mittelwerts ein Freiheitsgrad verwendet. Statistisch gesehen erhalten Sie eine unverzerrte Schätzung der Varianz, wenn Sie durch n-1 dividieren.

Zu diesem Zeitpunkt haben Sie die Stichprobenvarianz bestimmt. Die Einheit ist „Quadrierte Schläge pro Minute“, was schwierig zu interpretieren ist. Der letzte Schritt besteht also darin, die Quadratwurzel zu ziehen, um die Standardabweichung der Stichprobe zu erhalten:

$\sqrt{140}=11,8$

Basierend auf der Stichprobe von sechs Personen beträgt der Stichprobenmittelwert 70 BPM mit einer Stichprobenstandardabweichung von 11,8 BPM, was Sinn ergibt.

In der Regel verwenden Sie eine Software, um die Stichprobenstandardabweichung zu berechnen. Die Formel für die Stichprobenstandardabweichung lautet:

$\sqrt{\frac{Σ^n_{i=1}(x_i - \overline{x})^2}{n-1}}$

In der obigen Formel hat die Stichprobe n Datenwerte. Jeder Datenwert wird durch ein x dargestellt. Das Symbol x̅ stellt den Stichprobenmittelwert dar. Das Symbol Σ ist das Summensymbol; in dieser Formel bedeutet es, dass jede der quadrierten Differenzen zwischen einem Datenwert und dem Stichprobenmittelwert addiert werden muss, genau wie im Beispiel.

Standardabweichung für die Population

In den seltenen Fällen, in denen Daten für die gesamte Grundgesamtheit vorliegen, unterscheidet sich die Berechnung der Standardabweichung geringfügig von der Berechnung einer Stichprobe aus der Grundgesamtheit. Bei der gesamten Grundgesamtheit wird die Größe der Grundgesamtheit mit einem großen N bezeichnet. Die Formel lautet:

$\sqrt{\frac{Σ^N_{i=1}(x_i - μ)^2}{N}}$

Die obige Formel verwendet die Größe der Grundgesamtheit (N) und den Mittelwert der Grundgesamtheit (μ). Die Idee hinter der Formel ist die gleiche wie die Formel für die Stichprobenstandardabweichung.

Die Standardabweichung verstehen

Visualisierung der Standardabweichung

Abbildung 3 unten zeigt, wie die Standardabweichung eine Schätzung der Streuung Ihrer Datenwerte ist. Die Mittellinie zeigt den Stichprobenmittelwert (70) der sechs Herzfrequenzdatenwerte aus dem vorherigen Beispiel. Für zwei der Werte (65 und 80) wird im Diagramm die Berechnung der Differenz zum Mittelwert hervorgehoben.

Sie können sehen, dass Unterschiede negativ sind, wenn der Datenwert niedriger als der Mittelwert ist, und positiv, wenn der Datenwert höher als der Mittelwert ist. Durch die Quadrierung der Differenzen heben sich die positiven und negativen Differenzen nicht gegenseitig auf.

Indem Sie alle quadrierten Differenzen addieren, erhalten Sie die kombinierten Spannen zwischen jedem Datenwert und dem Mittelwert. Kleinere Summen weisen auf eine geringere Streuung der Datenwerte hin; größere Summen bedeuten eine größere Streuung der Datenwerte.

Abbildung 3: Differenz zum Stichprobenmittelwert für zwei Datenpunkte

Interpretation der Standardabweichung

Meistens geben Sie sowohl den Mittelwert als auch die Standardabweichung an. Dies hilft, die Standardabweichung in einen Kontext zu stellen.

Kleinere Standardabweichungen bedeuten, dass mehr Datenwerte nahe am Stichprobenmittelwert liegen. Größere Standardabweichungen bedeuten, dass Ihre Datenwerte stärker gestreut sind und dass einige Werte weiter vom Stichprobenmittelwert entfernt sind.

Nehmen wir zum Beispiel in Abbildung 4 an, der Stichprobenmittelwert für Ihre Daten sei 13. Wenn die Stichprobenstandardabweichung 3 beträgt (dargestellt durch die durchgezogene orange Linie), können Sie sehen, dass mehr Daten in der Nähe des Stichprobenmittelwerts liegen. Wenn die Stichprobenstandardabweichung 6 beträgt (dargestellt durch die gepunktete blaue Linie), sind die Daten stärker gestreut. Einige Werte liegen weiter vom Stichprobenmittelwert entfernt.

Abbildung 4: Größere Standardabweichungen weisen auf eine größere Streuung der Daten vom Mittelwert hin als kleinere Standardabweichungen.

Wie wirken sich extreme Datenwerte auf die Stichprobenstandardabweichung aus?

Extreme Datenwerte können einen erheblichen Einfluss auf die Stichprobenstandardabweichung haben. Fahren wir mit unserem Beispiel zur Herzfrequenz fort.

Zuvor waren unsere Datenwerte für die Herzfrequenz:

55
60
65
75
80
85

Wir fanden einen Stichprobenmittelwert von 70 BPM und eine Standardabweichung von 11,8 BPM.

Nehmen wir an, wir haben jetzt die Herzfrequenz einer weiteren Person:

55
60
65
75
80
85
140

Wir werden nicht noch einmal alle Berechnungen durchgehen, aber wir haben jetzt einen Stichprobenmittelwert von 80 BPM und eine Stichprobenstandardabweichung von 28,6 BPM. Dieser einzelne Extremwert hatte eine signifikante Auswirkung sowohl auf den Stichprobenmittelwert als auch auf die Stichprobenstandardabweichung.

VORSICHT! Löschen Sie keinen extremen Datenwert, nur weil er nicht richtig aussieht. Versuchen Sie zunächst herauszufinden, ob der extreme Datenwert auf einen Fehler irgendeiner Art zurückzuführen ist. Handelt es sich um das Ergebnis eines Fehlers, sollten Sie versuchen, den richtigen Wert zu finden. Wenn Sie nicht feststellen können, dass ein Fehler aufgetreten ist, sollten Sie den extremen Datenwert nicht weglassen. In dieser Situation können Sie selbst entscheiden, Ihre Analyse sowohl mit als auch ohne den fragwürdigen Datenpunkt zu erstellen.

Bei den Herzfrequenzdaten könnte der Extremwert die tatsächliche Ruheherzfrequenz einer Person sein. In diesem Fall sollten Sie ihn in den Daten belassen. Oder der Extremwert könnte die Herzfrequenz von jemandem unmittelbar nach dem Training sein, die sich von den anderen Datenwerten, die die Ruheherzfrequenz messen, unterscheidet. Der Punkt ist, dass Sie weitere Untersuchungen anstellen müssen, bevor Sie entscheiden, wie Sie mit extremen Datenwerten umgehen möchten.

Verwendung statistischer Symbole

Standardabweichung und Varianz der Grundgesamtheit

Die Standardabweichung der Grundgesamtheit wird in Formeln durch den griechischen Buchstaben „sigma“ angegeben. Das Symbol ist σ.

Die Varianz der Grundgesamtheit wird als σ2 dargestellt.

Viele statistische Formeln verwenden σ bei der Definition von Hypothesentests oder in Formeln für Analysen.

Denken Sie daran, dass Sie in den meisten Fällen weder die Standardabweichung der Grundgesamtheit noch die Varianz der Grundgesamtheit kennen werden.

Standardabweichung und Varianz der Stichprobe

Die Standardabweichung der Stichprobe wird in Formeln durch ein kursives, kleingeschriebenes s dargestellt.

Die Stichprobenvarianz wird in Formeln als s2 angegeben.

Wann die Standardabweichung verwendet werden sollte

Stetige Daten: JA

Die Standardabweichung ist für stetige Daten sinnvoll. Diese Daten werden auf einer Skala mit vielen möglichen Werten gemessen. Beispiele für stetige Daten sind:

  • Alter
  • Blutdruck
  • Gewichtung
  • Temperatur
  • Geschwindigkeit.

Für alle diese Beispiele ist es sinnvoll, die Standardabweichung zu berechnen.

Abbildung 5: Verwenden Sie die Standardabweichung mit stetigen Daten.

Ordinale oder nominale Daten: NEIN

Wie hier definiert, ist die Standardabweichung für ordinale oder nominale Daten nicht sinnvoll. Diese Daten werden auf einer Skala mit nur wenigen möglichen Werten gemessen. Es gibt andere Statistiken, die die Streuung eines Satzes von ordinalen oder nominalen Datenwerten schätzen.

Ordinale Daten werden in der Regel in Gruppen mit einer bestimmten Reihenfolge unterteilt. Beispielsweise, wenn Sie an einer Umfrage teilnehmen, in der Sie gebeten werden, Ihre Meinung auf einer Skala von „Stimme überhaupt nicht zu“ bis „Stimme voll und ganz zu“ anzugeben. Ihre Antworten sind ordinal – siehe Abbildung 6 unten.

Nominale Daten unterteilen die Stichprobe ebenfalls in Gruppen, jedoch ohne eine bestimmte Reihenfolge. Zwei Beispiele sind das biologische Geschlecht und das Wohnsitzland (Abbildung 7). Sie können M für männlich und F für weiblich in Ihrer Stichprobe verwenden, oder Sie können 0 und 1 verwenden. Für das Land können Sie die Länderabkürzung oder Zahlen verwenden, um den Ländernamen zu codieren. Wenn Sie Zahlen für diese Daten verwenden, können Sie zwar die Stichprobenstandardabweichung berechnen, aber es ergibt keinen Sinn.

Abbildung 6: Verwenden Sie die Standardabweichung nicht mit ordinalen Daten.
Abbildung 7: Verwenden Sie die Standardabweichung nicht mit nominalen Daten.

Andere Maße der Variabilität

Die Standardabweichung ist eine Möglichkeit, die Streuung Ihrer Daten zu schätzen. Die Spannweite und der Interquartilabstand (IQR) geben ebenfalls Aufschluss über die Streuung. Anders als bei der Standardabweichung geht es bei keiner dieser Statistiken um den Mittelpunkt der Daten. Diese Statistiken können für kleine Datensätze (Spannweite) oder schiefe Datensätze (IQR) verwendet werden. 

Bereich

Die Spannweite ist die Differenz zwischen dem niedrigsten und dem höchsten Wert in Ihren Daten.

Interquartilabstand (IQR)

Der Interquartilabstand ist die Differenz zwischen dem 25. und 75. Perzentil in Ihren Daten. Der IQR wird daher weniger von Extremwerten beeinflusst als die Spannweite oder die Standardabweichung. Wenn Ihre Daten Extremwerte aufweisen oder schief sind, kann der IQR eine gute Wahl sein, um die Variabilität in Ihrem Datensatz zu beschreiben.