Korrelation

Was ist Korrelation?

Korrelation ist ein statistisches Maß, das ausdrückt, inwieweit zwei Variablen in einer linearen Beziehung zueinander stehen (das heißt, sie verändern sich in einem festen Verhältnis zueinander). Sie ist ein gängiges Hilfsmittel zur Beschreibung von einfachen Beziehungen, ohne eine Aussage über Ursache und Wirkung zu treffen.

Wie wird Korrelation gemessen?

Der Korrelationskoeffizient der Stichprobe, r, quantifiziert die Stärke der Beziehung. Korrelationen werden auch auf statistische Signifikanz überprüft.

Welche Einschränkungen bestehen bei der Korrelationsanalyse?

Korrelation berücksichtigt weder das Vorhandensein noch den Effekt anderer Variablen außer den zwei zu untersuchenden. Wichtig ist, dass Korrelation uns nichts über Ursache und Wirkung verrät. Korrelation kann ebenfalls keine kurvenförmigen Beziehungen beschreiben.

Korrelationen beschreiben Daten, die sich zusammen verändern

Korrelationen sind nützlich zur Beschreibung von einfachen Beziehungen zwischen Daten. Stellen Sie sich zum Beispiel vor, dass Sie sich einen Datensatz von Campingplätzen in einem Bergpark ansehen. Sie möchten wissen, ob eine Beziehung zwischen der Höhe des Campingplatzes (wie hoch er am Berg liegt) und des durchschnittlichen Temperaturmaximums im Sommer besteht.

Für jeden Campingplatz haben Sie zwei Messwerte: Höhe und Temperatur. Wenn Sie diese zwei Variablen aus Ihrer Stichprobe mittels der Korrelation vergleichen, können Sie eine lineare Beziehung finden: mit zunehmender Höhe verringert sich die Temperatur. Sie sind negativ korreliert.

Was bedeuten Korrelationszahlen?

Wir beschreiben Korrelationen mit einem einheitslosen Maß namens Korrelationskoeffizient, der von -1 bis +1 reicht und durch r angezeigt wird. Statistische Signifikanz wird durch einen p-Wert angegeben. Daher werden Korrelationen normalerweise mit zwei Kennzahlen geschrieben: r = und p = .

  • Je näher r bei Null liegt, desto schwächer ist der lineare Zusammenhang.
  • Positive r-Werte zeigen eine positive Korrelation an, bei der die Werte beider Variable tendenziell gemeinsam ansteigen.
  • Negative r-Werte zeigen eine negative Korrelation an, bei der die Werte einer Variable tendenziell ansteigen, wenn die Werte der anderen Variablen fallen.
  • Auf Grund der Beobachtungen aus der Stichprobe gibt uns der p-Wert einen deutlichen Hinweis darauf, dass der Korrelationskoeffizient der Population wahrscheinlich nicht gleich Null ist.
  • „Einheitsloses Maß“ bedeutet, dass Korrelationen auf ihrer eigenen Skala existieren: In unserem Beispiel ist die Zahl für r nicht auf derselben Skala wie Höhe oder Temperatur. Dies unterscheidet ihn von anderen statistischen Kenngrößen. Zum Beispiel ist der Mittelwert der Höhenmessungen auf derselben Skala wie seine Variable.

Was ist ein p-Wert?

Ein p-Wert ist ein Maß für Wahrscheinlichkeit, das zum Testen von Hypothesen verwendet wird.

Er gibt die Wahrscheinlichkeit an, die beobachteten Daten zu erhalten, wenn kein Effekt vorhanden ist – anders ausgedrückt, im Falle der Nullhypothese. Für unsere Campingplatz-Daten wäre das die Hypothese, dass keine lineare Beziehung zwischen Höhe und Temperatur besteht. Wenn ein p-Wert verwendet wird, um ein Ergebnis als statistisch signifikant zu beschreiben, heißt das, dass er unter einen vordefinierten Grenzwert fällt (z. B. p <0,05 or p <0,01), worauf wir die Nullhypothese zugunsten einer alternativen Hypothese ablehnen (für unsere Campingplatz-Daten, dass eine Beziehung zwischen Höhe und Temperatur besteht).

Sobald wir eine signifikante Korrelation erhalten haben, können wir auch ihre Stärke betrachten. Eine perfekte positive Korrelation weist einen Wert von 1 und eine perfekte negative Korrelation einen Wert von -1 auf. Aber in der Praxis würden wir keine perfekte Korrelation erwarten, es sei denn, eine Variable ist in Wirklichkeit ein Ersatzmaß für die andere. Eine perfekte Korrelationszahl kann Sie im Gegenteil sogar auf einen Fehler in Ihren Daten aufmerksam machen! Wenn Sie zum Beispiel versehentlich für jeden Campingplatz die Höhe über dem Meeresspiegel statt der Temperatur aufzeichnen, würde dies perfekt mit der Höhe korrelieren.

Eine weitere nützliche Information ist N, die Zahl der Beobachtungen. Wie bei den meisten statistischen Tests ist es hilfreich, die Größe der Stichprobe zu kennen, um beurteilen zu können, wie gut sie die Population repräsentiert. Wenn wir zum Beispiel nur die Höhe und Temperatur von fünf Campingplätzen messen würden, der Park aber zweitausend Campingplätze besitzt, dann wäre es sinnvoll, unserer Stichprobe mehr Campingplätze hinzuzufügen.

Visualisierung von Korrelationen mit Streudiagrammen

Kehren wir zu unserem Beispiel von oben zurück: mit zunehmender Höhe des Campingplatzes nimmt die Temperatur ab. Wir können uns dies mithilfe eines Streudiagramms direkt ansehen. Stellen Sie sich vor, dass wir unsere Campingplatz-Daten in einem Diagramm dargestellt haben:

  • Jeder Punkt im Diagramm repräsentiert einen Campingplatz, den wir auf einer X- und Y-Achse entsprechend seiner Höhe und seines Temperaturmaximums im Sommer platzieren können.
  • Der Korrelationskoeffizient (r) ist ebenfalls im Diagramm dargestellt. Er gibt numerisch an, wie nahe die im Streudiagramm abgebildeten Punkte einer linearen Beziehung kommen. Stärkere Beziehungen, oder größere r-Werte, bedeuten Beziehungen, bei denen die Punkte sehr nahe an der Linie sind, die wir an die Daten angepasst haben.

Wie sieht es mit komplexeren Beziehungen aus?

Streudiagramme sind auch nützlich, um zu ermitteln, ob etwas in unseren Daten vorhanden ist, das eine korrekte Korrelation stören könnte, beispielsweise ungewöhnliche Muster wie eine kurvenförmige Beziehung oder ein extremer Ausreißer.

Korrelationen können kurvenförmige Beziehungen nicht präzise erfassen. In einer kurvenförmigen Beziehung sind Variablen bis zu einem gewissen Punkt in einer bestimmten Richtung korreliert und anschließend verändert sich die Beziehung.

Stellen Sie sich zum Beispiel vor, wir untersuchen die Höhen unserer Campingplätze und wie gut Camper die jeweiligen Campingplätze im Durchschnitt bewerten. Womöglich sind Höhe und Campingplatzbewertungen zunächst positiv korreliert, weil höhere Campingplätze eine bessere Aussicht auf den Park bieten. Aber ab einem bestimmten Punkt werden größere Höhen negativ mit Campingplatzbewertungen korreliert, weil den Campern in der Nacht kalt wird!

Wir können noch weitere Erkenntnisse gewinnen, indem wir schattierte Dichteellipsen in unser Streudiagramm einfügen. Eine Dichteellipse stellt die dichteste Region der Punkte in einem Streudiagramm dar, was uns wiederum hilft, die Stärke und Richtung der Korrelation zu erkennen.

Dichteellipsen können unterschiedlich groß sein. Häufig wird zur Untersuchung einer Korrelation eine Dichteellipse von 95 % gewählt, die etwa die dichtesten 95 % der Beobachtungen erfasst. Wenn zwei Variablen sich gemeinsam verändern, wie die Höhe und Temperatur unserer Campingplätze, würden wir erwarten, dass diese Dichteellipse die Form der Linie widerspiegelt. Und bei einer kurvenförmigen Beziehung können wir sehen, dass die Dichteellipse rund aussieht: eine Korrelation liefert uns keine aussagekräftige Beschreibung dieser Beziehung.