シリアルの例では、どれが健康的な食生活に向いているか、どれが向かないかを特定しました。次は、シリアルの変数が互いにどのような関係にあるかを調べてみましょう。「多変量の相関」プラットフォームでは、変数間のパターンや関係を観察することができます。「多変量の相関」レポートでは、次のことが実行できます。
• 相関係数行列を見て、変数の各ペアに関して、線形関係がどれぐらい強いかを確かめる。
• 散布図行列を使って、従属性、外れ値、クラスターを特定する。
• 偏相関、逆相関、ペアごとの相関、共分散行列、主成分など、その他の手法を使って複数の変数を調べる。
メモ: 「多変量の相関」プラットフォームの詳細については、『多変量分析』の多変量の相関章を参照してください。
ここで、脂肪とカロリーなど、変数間の関係を調べてみましょう。「多変量の相関」プラットフォームでシリアルデータを分析すると、次のような疑問が解決できます。
• どの変数ペアに強い相関があるか
• どの変数ペアに相関がないか
1. 「Cereal.jmp」データテーブル内で、列パネルの対角線より左下側部分をクリックして行の選択を解除します。
図6.6 行の選択解除
2. [分析]>[多変量]>[多変量の相関]を選択します。
3. 「カロリー」から 「カリウム」までをすべて選択し、[Y, 列]をクリックしてから[OK]をクリックします。
「多変量」レポートが表示されます。このレポートには、デフォルトで「相関」レポートと「散布図行列」が含まれています。「相関」レポートは、応答変数(Y)の各ペアの線形関係の強さを要約する相関係数の行列です。濃い数字は、相関が高いことを示しています。
図6.7 「相関」レポート
次のことを注意してください。
– 「カロリー」の列を見ると、カロリーの値はナトリウムと食物繊維を除くすべての変数と相関が高いことがわかります。
– 「食物繊維」の列を見ると、食物繊維とカリウムは相関が高いようです。
– 「ナトリウム」の列を見ると、ナトリウムは他の変数とあまり相関がないことがわかります。
散布図行列上の確率楕円を見ると、変数間の関係をさらに深く理解できます。
図6.8 散布図行列(一部)
デフォルトでは、各散布図に95%の二変量正規楕円が表示されます。この楕円は、変数の各ペアが二変量正規分布に従うと仮定し、楕円のなかに約95%のデータが含まれるように描かれています。変数のペアが無相関の場合は、楕円が対角線上に伸びておらず真円に近くなります。一方、相関がある場合は、楕円が対角線上に伸び、細長くなります。
次のことを確認してください。
– 「ナトリウム」の列の楕円は真円に近いです。この形状は、ナトリウムが他の変数と無相関であることを示します。
– 「脂肪」の列の青いxマーカー(Nat. Bran Oats & Honey、Cracklin’ Oat Bran、Banana Nut Crunch)は、楕円の外側にあります。つまり、これらは外れ値です(シリアルに含まれる脂肪の量に関して)。
散布図行列については、後でさらに詳しく見ていきます。
4. 「多変量」の赤い三角ボタンをクリックし、メニューから[ペアごとの相関係数]を選択して、「ペアごとの相関」レポートを表示します。
図6.9 「ペアごとの相関」レポート(一部)
「ペアごとの相関」レポートには、Pearsonの積率相関係数が、Y変数のペアごとに表示されます。このレポートでは、有意確率も計算されます。また、相関の大きさが棒グラフで描かれます。
5. どのペアに相関性が高いかを簡単に見るには、レポートを右クリックし、[列の値で並べ替え]を選択します。そして、[p値]を選択し、[昇順]チェックボックスをオンにし、[OK]をクリックします。
これで、p値の小さいペアから順に表示されます。p値が小さいときは、「相関がある」という証拠をデータが示していることを意味します。最もp値が小さいものは、「炭水化物全体」と「カロリー」です。
図6.10 p値が小さいペア
結果を見ると、次の疑問に対する回答が得られます。
どの変数ペアに強い相関があるか
「相関」レポートと散布図行列を見ると、カロリーの値はナトリウムと食物繊維を除くすべての変数と相関が高いことがわかります。「ペアごとの相関」レポートを見ると、炭水化物全体とカロリーの間の相関が最も強いことがわかります。
どの変数ペアに相関がないか
「相関」レポートと散布図行列を見ると、ナトリウムには他の変数と相関がないことがわかります。
今回の結果からも、100% Nat. Bran Oats & Honeyを避けて、All-Bran with Extra FiberやFiber Oneを選ぶのがよいだろうという結論が導き出せます。なぜなら、食物繊維の多いシリアルは、カロリー、脂肪、砂糖が少なく、カリウムの量が多い傾向があるからです。また、炭水化物の多いシリアルは避けたほうがよいということも示唆されます。なぜなら、炭水化物が多いシリアルは、カロリーが高い傾向があるからです。