相関と因果関係

相関は、2つの変数間の関係を定量化します。ただし、2つの変数が一緒に変動していることが確認されても、必ずしも1つの変数がもう1つの変数の原因であるかがわかるわけではありません。このことから「相関は因果関係を意味しない」とよく言われます。

強い相関は因果関係を示す場合がありますが、次のような他の説明も簡単につきそうです。

  • これは、変数が関連しているように見える単なる偶然の結果である可能性がありますが、根本的な関係はありません。
  • 関係を実際よりも強く(または弱く)見えるようにしている3つ目の潜在的な変数がある可能性があります。

観測データでは、相関から因果関係を確認することはできません...

変数間の相関は、データにパターンがあることを示しています。つまり、変数は一緒に変動する傾向があります。ただし、相関関係だけでは、1つの変数が他の変数の原因となるためデータが一緒に変動しているかどうかはわかりません。

実際には因果関係による結びつきがまったくない2つの変数について、統計的に有意で信頼性のある相関が確認されることがあります。実際、こうした相関は普通にあります。多くの場合、これは両方の変数が別の単一の因果変数に関連付けられているためです。この因果変数は測定しているデータと共起する傾向があります。

例: 運動と皮膚がん

例を挙げて考えてみましょう。健康データを調査しているとします。運動と皮膚がんの症例との間に統計的に有意な正の相関が見られます。つまり、運動をする人は皮膚がんを患う傾向があります。この相関関係は強力で信頼性があるように思えます。患者の複数の母集団にわたって現れています。詳しく調査するまでもなく、運動が何らかの理由でがんを発生させると結論付けるかもしれません。これらの調査結果に基づいて、運動によるストレスが原因で、日焼けのダメージから体を保護する能力が失われるのではないかというもっともらしい仮説を立てることもできます。

しかし、一年中日光がたくさん当たる場所に住んでいる人は、そうでない場所に住んでいる人よりも日常生活で非常に活動的であることが理由で、このデータセットに相関関係が存在しているとしたらどうでしょう。これは、運動量の増加としてデータに現れます。同時に、日光への露出が増えることは、皮膚がんの症例が増えることを意味します。運動と皮膚がんの発生率の両方の変数は、原因となる3番目の変数、つまり太陽光への曝露の影響を受けましたが、因果関係はありませんでした。

...しかし、適切に設計された実証的研究によって因果関係を明らかにすることができます

因果関係の証拠を表すものとそうでないものを区別することは、データリテラシーの重要な要素です。因果関係の特定は、現実の世界では決して完璧に行えるものではありません。しかしながら、因果関係に関する証拠を見つけるためのさまざまな実験的、統計的、研究設計手法があります。たとえば、ランダム化、対照実験、複数の変数を持つ予測モデルなどです。相関検定の本質的な制限(相関は3変量の、潜在的な因果関係を測定できないなど)以外にも、因果関係の証拠は通常、個々の統計検定ではなく、慎重な実験計画から得られることを理解することが重要です。

例: 心疾患、食事と運動

再び、健康について調査しているとします。今回は、病気の発生率、食事、その他の健康行動の大規模なデータセットを調べています。心疾患の増加は高脂肪食と相関し(正の相関)、運動の増加は心疾患の減少と相関している(負の相関)ことがわかったとします。これらの相関はどちらも大きく、信頼性が高いとします。確かにこれは因果関係の手がかりを提供していますね。

この健康データの場合、相関関係は根本的な因果関係を示唆している可能性がありますが、詳細な調査を行わないと確証を得られません。これらの相関関係がわかった後、次のステップとして、体が脂肪を吸収する方法とそれが心臓にどのように影響するかを調べる生物学的研究を設計するとします。おそらく、心臓に負担をかけるような方法で過剰に摂取された脂肪が蓄積されるメカニズムが見つかるでしょう。また、運動を詳細に調べ、ランダム化された対照実験を計画したところ、運動が脂肪の蓄積を妨げ、心臓への負担を軽減することを発見するかもしれません。

これらの証拠はすべて、1つの説明に当てはまります。つまり脂肪分の多い食事は、実際に心疾患の原因となる可能性があります。そして、問題をさらに詳しく調べても、元の相関関係はまだ成り立っていました。つまり高脂肪食と心疾患は関連しています。

しかし、この例では、因果関係の証拠は、観測データ(心疾患の発生率や、報告された食事や運動など)の関係を調べるだけの相関検定自体では示されなかったことに注意してください。この関連の証拠を見つけるために、実証研究を代わりに行ったのです。

では、どのようにして因果関係を探るのでしょうか?それは、正しい調査によってです

因果関係を把握することは難しい問題です。現実の世界では、変数間のすべての可能な関係をマッピングするために必要なデータすべてにアクセスできるわけではありません。しかし、異なる変数間のメカニズムを分離して調査するのに役立つ主要な戦略がいくつかあります。たとえば、対照実験では、2つのグループを慎重に対応させ、一方のグループのみにランダムに治療または介入を適用することができます。

ランダム化の原理は実験計画の鍵であり、このコンテキストを理解することで、統計的な検定から推測できることを変えることができます。

運動と皮膚がんの発生率の関係を調べた、上記の最初の例についてもう一度考えてみましょう。グローバルに分布した大規模な人々の標本を何らかの方法でとり、異なるレベルの運動をランダムに割り当て、10年間、毎週運動を行うものとします。その終わりに、この大規模なグループの皮膚がんの発生率も収集します。最終的には、運動と皮膚がんの関係を検定するために実験的に計画されたデータセットが得られます。運動はランダム割り当てにより実験で直接操作されたため、これら2つのグループ間で異なる可能性のある他の変数には体系的に関連付けられません(調査の他のすべての点が妥当な場合)。つまりこの場合、データは適切な実験計画から得られたものであるため、運動と皮膚がんの正の相関は因果関係の有意義な証拠となります