相関係数

相関係数とは

相関係数は、相関分析における2つの変数間の線形関係の強さを定量化した指標です。この係数は、相関レポートで記号rを使用して表されます。

相関係数の使用方法

変数が2つの場合、相関係数の計算式は変数の平均から各データ点までの距離を比較し、これを使用して、変数間の関係が、データを貫いて描かれた想像上の線にどれだけ適合するかを示します。相関関係が線形関係の指標であると言うときはこれを意味します。

考慮すべき制約とは

相関関係では、手元にある2つの変数のみを確認でき、二変量データ以外の関係についての洞察は得られません。この検定では、データ内の外れ値は検出されず(そのため外れ値の影響を受ける)、曲線関係を適切に検出できません。

相関係数のバリアント

このセクションでは、Pearsonの積率相関に焦点を当てます。これは、実用上最も一般的なタイプの相関指標の1つですが、他にもあります。近縁関係にあるバリアントの1つはSpearman相関です。これは、使用法は似ていますが、順位付けされたデータに適用できます。

相関係数の値の意味

相関係数rは、-1から1の間に値をとる単位のない数値です。統計的有意性はp値で示されます。したがって、相関は通常、r =とp =の2つの主要な数で記述されます。

  • rがゼロに近づくほど、直線関係は弱くなります。
  • rの値が正の場合、正の相関があり、両方の変数の値は共に増加する傾向にあります。
  • rの値が負の場合、負の相関があり、片方の変数の値が減少すると、もう片方の変数の値は増加する傾向にあります。
  • 値1と-1はどちらも「完全な」相関を表し、それぞれ正と負に対応します。2つの完全に相関する変数は、一定の割合で一緒に変化します。こうした変数には線形の関係があると言います。散布図にプロットすると、すべてのデータ点を1つの直線で結ぶことができます。
  • p値を用いて、標本から観測した結果に基づいて、母相関係数がゼロでないと有意に結論できるかどうかを判断します。

p値とは

p値は、仮説検定に使用される確率の尺度です。仮説検定の目標は、データに関する特定の仮説を支持するのに十分な証拠があるかどうかを判断することです。実際には、帰無仮説対立仮説の2つの仮説を立てます。相関分析の場合、帰無仮説は通常、変数間で観測された関係が純粋な偶然の結果であるということです(つまり、相関係数は実際にゼロで、線形関係はありません)。対立仮説は、測定した相関がデータに本当に存在することです(つまり、相関係数はゼロとは異なります)。

p値は、実際には帰無仮説が真である場合に標本データでゼロでない相関係数が観測される確率です。p値が小さい場合、帰無仮説は棄却されます。帰無仮説を棄却する一般的なp値の閾値は0.05です。つまり、p値が0.05未満の場合、相関係数がゼロとは異なるという対立仮説を支持して、帰無仮説を棄却します。

 

相関係数の実際の計算方法

標本相関係数は、次の計算式で表すことができます。

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\
\ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

注釈付きの計算式を表示

演算を簡単に理解できるように、少数の単純な数値の例を使用して相関係数を計算する方法を見ていきましょう。

暑い日に街でより多くのアイスクリームの販売が見込めるかどうかに興味があるとしましょう。春になってアイスクリーム店がオープンしたとします。外が暑い日にアイスクリームを買う人もいるでしょう。その一方で、アイスクリームがとても好きなので、定期的に購入する人もいるでしょう。

私たちは、この疑問に回答するために、平均的な1日のアイスクリームの売上と毎日の最高気温に関するデータを収集します。したがって、アイスクリームの売上と気温は、相関係数の計算に使用する2つの変数です。このようなデータは、二変量データと呼ばれることがあります。これは、各オブザベーション(売上と気温の両方を測定した時点)に、それを説明するために使用できる情報が2つあるためです。つまり、アイスクリームの売上と気温が一緒に変動しているかどうかを確認しています。

以前の例と同様、まず初めに散布図を使用してデータを確認するのが有用です。

これらのデータは、表で確認することもできます。これは、各データ点が係数の計算にどのように用いられたかを辿るのに役立ちます。二変量データについて言えば、一方の変数をX、もう一方の変数をYを呼ぶのが一般的です(これらは、プロットの軸のように、グラフ平面上で位置を確認するのにも役立ちます)。アイスクリームの売上をX、気温をYとしましょう。

各データ点はペアであることに注意してください。実際には個々の時点を調べており、各時点に売上と気温の両方の値があることを忘れないでください。

アイスクリームの売上(X)気温(°F)(Y)
370
675
980

 

1. 標本平均を求めます

データの方向性が定まったので、上記の式から2つの重要な部分計算を始めることができます。1つは標本平均、もう1つは各データ点とこの平均の差です(これらのステップでは、標準偏差の最初の構築ブロックもわかります)。

標本平均は、$ \overline{x} $と$ \overline{y} $の記号で表されます。これは「xバー」と「yバー」と呼ばれることもあります。アイスクリームの売上の平均 ($ \overline{x} $)と温度の平均($ \overline{y} $)は、次のように簡単に計算できます。

$$ \overline{x} =\ [3\ +\ 6\ +\ 9] ÷ 3 = 6 $$

$$ \overline{y} =\ [70\ +\ 75\ +\ 80] ÷ 3 = 75 $$

2. 平均から各データ点の距離を計算します

次に、2つの変数のそれぞれの平均を使用して、アイスクリームの売上の各点(計算式のxi)からの売上の平均(6)を差し引き、各気温データの各点(計算式のyi )から気温の平均(75)を差し引きます。この演算の結果は、負の数またはゼロになる場合があります。

アイスクリーム(X)気温(°F)(Y)$x_i-\overline{x}$$y_i-\overline{y}$
$3$$70$$3 - 6 = -3$$70 - 75 = -5$
$6$$75$$6 - 6 = 0$$75 - 75 = 0$
$9$$80$$9 - 6 = 3$$80 - 75 = 5$

 

3. 係数の計算式の上部を完成させます

計算式の以下の部分は、積和と呼ばれます。積とは乗算後に得られる数値です。したがって、この式は乗算した数値の合計になります。

$$ \sum[(x_i-\overline{x})(y_i-\overline{y})] $$

上記の表の最後の2列の各行からペアの値を取得し、それらを乗算して(2つの負の数を乗算すると正になることに注意してください)、結果を次のように合計します。

$$ [(-3)(-5)] + [(0)(0)] + [(3)(5)] = 30 $$

洞察:

積和が散布図とどのように関係しているのか


積和の計算と散布図のデータ点の位置は、本質的に関連しています。

このデータでは積和が正の値です。積和(相関係数の計算式の分子)が正の場合、相関係数rは正になります。なぜなら、分母(平方根)は常に正になるためです。正の相関は、アイスクリームの売上と気温の例のように、1つの変数の増加が他の変数の増加と関連していることを意味します。散布図では、データ点は左から右に上向きに角度を付けて分布します。しかし、積和はこれをどのように捉えるでしょうか。

  • 積和が正の値となるのは、合計している各積が正になる傾向がある場合のみです。
  • 各積が正の値となるのは、値が両方とも負の場合または両方とも正の場合です。
  • ペアの2つの数値が負になるのは、両方の値が平均値を下回っている(散布図の左下)場合のみです。ペアの2つの数値が正になるのは、両方の値が平均値を上回っている(散布図の右上)場合のみです。

したがって、積和は、データが散布図の左下と右上に表示される傾向があるか(正の相関)、またはデータが散布図の左上と右下に表示される傾向があるかを示します (負の相関)。

 

4. 係数の計算式の下部を完成させます

相関係数の計算式の分母は次のようになります。

$$ \sqrt{\mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2} $$

この計算式の個々の式を確認し、アイスクリームの売上の例から数値を落とし込んでみましょう。

$$ \mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2=-3^2+0^2+3^2=9+0+9=18 $$

$$ \mathrm{\Sigma}{(y_i\ -\ \overline{y})}^2=-5^2+0^2+5^2=25+0+25=50 $$

2つの式の結果を乗算すると、次のようになります。

$$ 18\times50\ =\ 900 $$

これにより、計算式の下部は次のようになります。

$$ \sqrt{900}=30 $$

 

5. 計算を終了し、結果を散布図と比較します

ここでもう一度、完全な相関係数の計算式を示します。

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

これまでに計算した分子と分母の数を当てはめてみましょう。

$$ r=\frac{30}{30}=1 $$

アイスクリームの売上と暑い夏の日の間には完全な相関関係があります。もちろん、完全な相関関係を見つけることは、現実世界ではまずありません。もし実際のデータを使用してこのような結果が得られた場合、何かが間違っていると言えるでしょう。

しかし、この例のように単純化されたデータから来た結果の場合、データ点を見るだけでも直感的に理解できるはずです。散布図をもう一度見てみましょう。

次に、その散布図に線を引くことを想像してください。完璧に直線をあてはめられるでしょうか。

1つの図が1,000個の相関係数に匹敵する場合も

散布図やその他のデータの視覚化は、仮説検定を実行する前だけでなく、統計プロセス全体を通して有用なツールです。

実際、相関係数のみに依存すると誤解が生じ得ることを覚えておくことが重要です。特に、曲線関係や極端な外れ値が関係する状況であてはまります。以下の散布図では、相関係数がゼロまたはゼロに近いからといって、必ずしも変数間に関係がないことを意味するわけではありません。単に線形関係がないことを意味します。

同様に、散布図を見ると、外れ値(データの異常な観測値)が相関係数に影響を与えている可能性があるかについての洞察が得られます。1つの極端な外れ値を持つ例を見てみましょう。相関係数は、XとYの間に比較的強い正の関係があることを示しています。しかし、外れ値が削除されると、相関係数はほぼゼロになります。