相関

相関とは

相関とは、2つの変数が線形に関連している(つまり一定の割合で一緒に変化する)程度を表す統計的指標です。原因と結果についての説明をせずに単純な関係を説明するための一般的なツールです。

相関の測定方法

標本相関係数rは、関係の強さを定量化します。相関関係は、統計的有意性についても検定されます。

相関分析の限界とは

相関関係では、調べている2つの変数以外の変数の存在や影響を調べることはできません。重要なのは、相関関係から原因と結果について知ることはできないということです。また、相関は曲線関係を正確に表すこともできません。

相関は、一緒に変動するデータを説明します

相関は、データ間の単純な関係を説明するのに役立ちます。たとえば、山の公園のキャンプ場のデータセットを調査しているとします。キャンプ場の標高(山のどの高さに位置するか)と夏の平均気温との間に関係があるかどうかを知りたいとします。

1つのキャンプ場に、標高と気温の2つの測定値があります。標本全体でこれらの2つの変数を、相関を用いて比較すると、線形の関係であることが分かります。標高が上がると、温度が下がります。こらは負の相関です。

相関の値が意味することとは

相関は、-1から+1までの範囲に値をとり、rで表される相関係数と呼ばれる単位のない数値で表されます。統計的有意性はp値で示されます。したがって、相関関係は通常、r =p =の2つの主要な数で記述されます。

  • rがゼロに近づくほど、線形の関係は弱くなります。
  • r値が正の場合、正の相関があり、両方の変数の値は共に増加する傾向にあります。
  • r値が負の場合、負の相関があり、片方の変数の値は、もう片方の変数の値が減少すると増加する傾向にあります。
  • p値は、標本から観測した結果に基づいて、母相関係数がゼロではない可能性が高いと有意に結論付けることができる証拠となります。
  • 「単位のない数値」とは、相関が独自の尺度で存在することを意味します。この例では、rとして与えられた数値は、標高または温度と同じ尺度ではありません。これは、他の要約統計量とは異なります。たとえば、標高の測定値の平均の尺度はその変数と同じ尺度です。

p値とは

p値は確率であり、仮説検定に使われる指標です。

p値は、「効果が存在しない」などの帰無仮説が正しいと仮定したもとでの、現在得られたデータ以上に極端な結果を得る確率を示します。キャンプ場のデータの場合、帰無仮説は「標高と気温との間に線形関係がない」という仮説になります。p値が小さい場合、「帰無仮説のもとで現在のデータ以上に極端な結果が得られる確率が小さい」ことを意味します。事前に定義された閾値(p <0.05またはp <0.01)をp値が下回る場合は「統計的に有意である」と呼ばれることがあります。また、p値が閾値を下回った場合、帰無仮説を棄却し対立仮説を受容するという判断がなされることもあります。このキャンプ場のデータでは、「標高と気温の間には関係がある」が対立仮説にあたります。

有意な相関関係が得られたら、その強さも確認できます。完全な正の相関の値は1で、完全な負の相関の値は-1です。しかし、現実の世界では、1つの変数がもう1つの変数の代理指標でない限り、完全な相関関係が見られることは決してありません。実際、完全な相関の値が確認された場合はデータに誤りがある可能性があります。たとえば温度ではなく、各キャンプ場の海面からの距離を誤って記録した場合、これは標高と完全に相関します。

もう1つの有用な情報がN、つまりオブザベーションの数です。ほとんどの統計的な検定と同様に、標本サイズを知ることは、標本の大きさとそれが母集団をどの程度代表するかを判断するのに役立ちます。たとえば、測定したのは5つのキャンプ場の標高と温度のみですが、公園には2000のキャンプ場がある場合、標本にさらにキャンプ場を追加する必要があります。

散布図による相関の視覚化

上記の例に戻ります。キャンプ場の標高が上がると、気温が下がります。これを散布図で直接確認することができます。キャンプ場のデータを下図のようにプロットしたとします。

  • プロットの各点は1つのキャンプ場を表しています。標高と夏の最高気温に基づいてxy-平面上に各点を配置できます。
  • 相関係数(r)も散布図を説明しています。これは、散布図にマッピングされた点が線形関係にどの程度近づくかを数値で示したものです。関係がより強い場合、つまりr値が大きい場合というのは、データにあてはめた線のすぐ近くにデータ点が位置するような関係を意味します。

より関係が複雑になるとどうなるでしょうか

散布図は、曲線関係や極端な外れ値などの特殊なパターンのように、正確な相関関係に影響を与えるようなものがデータにあるかどうかを判断するのにも役立ちます。

相関関係では、曲線関係を正確に把握できません。曲線関係では、関係が変化する点までは、特定の方向に変数が相関します。

たとえばキャンプ場の標高と、キャンパーが各キャンプ場を平均してどの程度評価しているかを確認するとします。おそらく最初は、キャンプ場の標高と評価には正の相関関係があります。これは、キャンプ場が高い場所にあるほど公園の景色がよくなるためです。しかし、ある点に達すると、キャンプ場の標高と評価との間に負の相関が生じるようにます。これは、夜が寒いとキャンパーが感じるためです。

散布図に色付きの確率楕円を追加すると、より深い洞察を得ることができます。確率楕円は、散布図内で点の最も密な領域を示し、相関の強さと方向を確認するのに役立ちます。

確率楕円にはさまざまなサイズがあります。相関関係を調べるための一般的な選択肢の1つが、95%確率楕円です。これは、観測値の最も密度の高い95%の領域を占めます。キャンプ場の標高と気温のように2つの変数が一緒に変動する場合、この確率楕円が線の形状を反映していることがわかります。また、曲線関係では、確率楕円が丸く見えることがわかります。相関関係からは、この関係について意味のある説明が得られません。