Korrelation vs. Kausalität

Korrelation prüft, ob eine Beziehung zwischen zwei Variablen besteht. Wenn beobachtet wird, dass sich zwei Variablen gemeinsam verändern, bedeutet dies jedoch nicht unbedingt, dass wir wissen, ob eine Variable das Auftreten der anderen verursacht. Daher sagen wir häufig: „Eine Korrelation impliziert keinen Kausalzusammenhang.“

Eine starke Korrelation kann möglicherweise auf eine Kausalität hindeuten, aber es könnte ebenso gut andere Erklärungen geben:

Sie kann auf reinem Zufall beruhen, wobei die Variablen in Zusammenhang zu stehen scheinen, jedoch keine wahre Beziehung zugrunde liegt.
Es könnte eine dritte, verborgene Variable geben, die die Beziehung stärker (oder schwächer) erscheinen lässt, als sie tatsächlich ist.

Für Beobachtungsdaten kann aus Korrelationen keine Kausalität bestätigt werden …

Korrelationen zwischen Variablen zeigen uns, dass ein Muster in den Daten vorhanden ist: dass die vorliegenden Variablen sich tendenziell gemeinsam verändern. Korrelationen allein können uns jedoch nicht zeigen, ob unsere Daten sich gemeinsam verändern, weil eine Variable die andere verursacht.

Es ist möglich, eine statistisch signifikante und zuverlässige Korrelation für zwei Variablen zu finden, zwischen denen keinerlei kausaler Zusammenhang besteht. Solche Korrelationen kommen sogar häufig vor! Oft liegt dies daran, dass beide Variablen mit einer anderen kausalen Variablen verbunden sind, die oft gleichzeitig mit den Daten auftritt, die wir messen.

Zum Beispiel: Sport und Hautkrebs

Betrachten wir dies anhand eines Beispiels. Stellen Sie sich vor, Sie untersuchen Gesundheitsdaten. Sie beobachten eine statistisch signifikante positive Korrelation zwischen Sport und Fällen von Hautkrebs – das heißt, die Menschen, die mehr Sport treiben, neigen dazu, an Hautkrebs zu erkranken. Diese Korrelation erscheint stark und zuverlässig und zeigt sich in mehreren Patientenpopulationen. Ohne weitere Nachforschungen könnten Sie schlussfolgern, dass Sport auf irgendeine Weise Krebs verursacht! Auf Grundlage dieser Ergebnisse könnten Sie womöglich sogar eine plausible Hypothese entwickeln: Vielleicht führt die Belastung durch den Sport dazu, dass die Sonnenschutzfähigkeit des Körpers geschwächt wird.

Aber stellen Sie sich vor, dass diese Korrelation in Wirklichkeit in Ihrem Datensatz auftritt, weil Menschen, die an Orten leben, an denen das ganze Jahr viel die Sonne scheint, im Alltag bedeutend aktiver sind als Menschen an anderen Orten. Dies zeigt sich in den Daten als erhöhte sportliche Betätigung. Gleichzeitig bedeutet eine erhöhte Einwirkung von Sonnenstrahlen, dass mehr Fälle von Hautkrebs auftreten. Beide Variablen – die Raten für Sport und Hautkrebs – wurden durch eine dritte, kausale Variable beeinflusst – Sonneneinstrahlung – waren jedoch nicht kausal miteinander verknüpft.

… aber mit gut konzipierter empirischer Forschung können wir einen Kausalzusammenhang ermitteln!

Unterscheiden zu können, was kausale Beweise liefert oder nicht, ist ein wesentlicher Aspekt im kompetenten Umgang mit Daten. Die Ermittlung der Kausalität ist in der Praxis nie perfekt. Doch es gibt eine Vielzahl an experimentellen, statistischen und Forschungsverfahren, um Beweise für kausale Beziehungen zu finden: z. B. Randomisierung, Kontrollexperimente und Vorhersagemodelle mit mehreren Variablen. Neben den mit Korrelationstests einhergehenden Einschränkungen (z. B., dass Korrelationen keine trivariaten, potenziell kausalen Beziehungen messen können), ist es wichtig zu verstehen, dass Beweise für Kausalität sich normalerweise nicht aus einzelnen statistischen Tests, sondern aus einer sorgfältigen Versuchsplanung ergeben.

Beispiel: Herzkrankheit, Ernährung und Sport

Stellen Sie sich zum Beispiel vor, dass wir wieder Gesundheitsforscher sind und dieses Mal einen großen Datensatz von Krankheitsraten, Ernährungs- und anderem Gesundheitsverhalten untersuchen. Nehmen wir an, wir finden zwei Korrelationen: Erhöhte Herzkrankheit ist mit einer fettreicheren Ernährung korreliert (eine positive Korrelation), und erhöhter Sport ist mit weniger Herzkrankheit korreliert (eine negative Korrelation). Beide Korrelationen sind groß und sind zuverlässig zu finden. Sicher liefert dies einen Hinweis zur Kausalität, nicht wahr?

Im Falle dieser Gesundheitsdaten könnte die Korrelation auf eine zugrunde liegende kausale Beziehung hindeuten, aber ohne weitere Forschung ist dies nicht festzustellen. Stellen Sie sich vor, dass wir nach Entdeckung dieser Korrelationen als nächsten Schritt eine biologische Studie planen, in der untersucht wird, wie der Körper Fett absorbiert und welche Auswirkungen das auf das Herz hat. Vielleicht finden wir einen Mechanismus, durch den Fett bei höherem Fettkonsum auf eine Weise gespeichert wird, die das Herz besonders belastet. Wir könnten auch den Sport genauer untersuchen und einen randomisierten Kontrollversuch planen, der ergibt, dass Sport die Fettspeicherung unterbricht und somit zu einer geringeren Belastung des Herzens führt.

All diese Beweisstücke passen zu einer Erklärung zusammen: Eine fettreichere Ernährung kann tatsächlich Herzkrankheiten verursachen. Die ursprünglichen Korrelationen haben sich im Laufe einer tiefergehenden Untersuchung bestätigt: Es besteht ein Zusammenhang zwischen fettreicher Ernährung und Herzkrankheiten.

Aber beachten Sie, dass in unserem Beispiel der Korrelationstest selbst nicht den Beweis für die Kausalität lieferte, sondern lediglich die Beziehung zwischen Beobachtungsdaten (zum Beispiel das Auftreten von Herzerkrankungen und angegebene Ernährung und Sport) untersuchte. Stattdessen untersuchten wir mithilfe von empirischer Forschung, ob Beweise für diesen Zusammenhang vorlagen.

Wie erforschen wir Kausalität? Mit der richtigen Untersuchung!

Kausalität zu verstehen, ist eine schwierige Aufgabe. In der Praxis ist es nie der Fall, dass wir Zugriff auf alle Daten haben, die wir zur Darstellung jeder möglichen Beziehung zwischen Variablen benötigen. Aber es gibt einige wesentliche Strategien, die uns helfen können, die Mechanismen zwischen unterschiedlichen Variablen zu isolieren und zu erforschen. Zum Beispiel können wir in einem Kontrollversuch sorgfältig zwei vergleichbare Gruppen zusammenstellen und per Zufallsprinzip eine Behandlung oder einen Eingriff für nur eine der Gruppen anwenden.

Das Prinzip der Randomisierung ist von größter Wichtigkeit für die Versuchsplanung, und das Verständnis dieses Kontextes kann verändern, welche Schlussfolgerungen wir aus statistischen Tests ziehen können.

Denken wir noch einmal an das erste Beispiel oben, in dem die Beziehung zwischen Sport und Hautkrebsraten untersucht wurde. Stellen wir uns vor, dass es möglich wäre, eine große, global verteilte Stichprobe von Personen zu nehmen und diesen nach dem Zufallsprinzip unterschiedliche Stufen an sportlicher Betätigung zuzuweisen, die sie zehn Jahre lang wöchentlich auszuführen haben. Am Ende dieses Zeitraumes erfassen wir schließlich Daten zu den Hautkrebsraten dieser großen Gruppe. So erhalten wir einen Datensatz aus einem Versuch, der speziell dazu entwickelt wurde, die Beziehung zwischen Sport und Hautkrebsraten zu testen! Da Sport in dem Versuch direkt durch zufällige Zuweisung geplant war, ist er nicht systematisch mit anderen Variablen verknüpft, die sich zwischen diesen Gruppen unterscheiden könnten (vorausgesetzt, alle anderen Aspekte der Studie sind gültig). Das heißt in diesem Fall, weil unsere Daten aus einem einwandfrei geplanten Versuch stammen, wäre eine positive Korrelation zwischen Sport und Hautkrebs ein aussagekräftiger Beweis für Kausalität.