各効果に対するてこ比プロット(effect leverage plot)は、次の点で役立ちます。
• 効果の仮説検定に関して、どの点が影響を持っているかを確認できる。
• 効果の仮説検定に関して、異常なパターンや外れ値を発見できる。
• 多重共線性の問題を発見できる。
ある効果のてこ比プロットでは、他の効果がすでに含まれているモデルに、該当の効果を追加することによる影響がわかります。ここでは、連続尺度の説明変数に対するてこ比プロットを説明します。名義尺度の説明変数も含む、より一般的な説明は、横軸のスケールを参照してください。
連続尺度の説明変数をX、応答変数をYとします。Xのてこ比プロットでは、まず、X以外のすべての説明変数で応答変数をYとして回帰分析を行い、残差を求めます。この残差を、ここでは「Y残差」といいます。次に、X以外のすべての説明変数で応答変数をXとして回帰分析を行い、残差を求めます。この残差を、ここでは「X残差」といいます。X残差には、Y残差を説明するだけの情報が、まだ十分に残っているかもしれません。
効果Xのてこ比プロットは、基本的には、X残差とY残差の散布図です(図3.58)。ただ、解釈しやすいように、Y残差にはYの標本平均が、Xの残差にはXの標本平均が足されています。このようにY残差に標本平均を足したものを「Yてこ比」、X残差に標本平均を足したものを「Xてこ比」とJMPでは呼んでいます。Xに対するてこ比プロットは、「Xてこ比」と「Yてこ比」の散布図です。
JMPは、こうして描かれたてこ比の散布図に、回帰直線と、平均の信頼区間を重ねて描きます。回帰直線は赤の実線で、信頼区間は赤の陰影で表示されます。この回帰直線はY残差をX残差に対して最小2乗推定によって回帰することによって得られますが、その傾きは、すべての説明変数を含んだモデルでの、Xの偏回帰係数に一致します。青い破線の水平線は、Yの標本平均を表しています。この水平線は、X残差とY残差に線形関係がない状態を示しています。描かれた回帰直線の傾きが0以外であるとき、モデルにXを追加することにより、Yの変動を説明する能力が高まることを意味します。
図3.56は、てこ比プロットで残差がどのように表現されているかを示しています。点から回帰直線までの距離は、すべての効果を含んだモデルでの残差です。点から水平線までの距離は、その効果がモデルに含まれていないときの残差を表します。つまり、てこ比プロットの水平線は、その効果のパラメータの値が0に制約されているときのモデルを表しています。
図3.56 てこ比プロットの仕組み
てこ比プロットには、回帰直線に対する信頼曲線が描かれます。この曲線は、検定が5%水準(または、「モデルのあてはめ」起動ウィンドウの[α水準の設定]で指定した水準)で有意かどうかを表したものです。Yの平均を表している水平線が、曲線と曲線の間に含まれているとき、その効果は有意ではありません。曲線が水平線と交差しているときは、効果は有意です。図3.57の例を参照してください。
図3.57 てこ比プロットで示される有意性
説明変数が連続変数の場合、てこ比プロットにおける横軸のスケールは説明変数と同じ単位になっています。このとき、横軸の範囲は、説明変数におけるデータ値の範囲と同じになっています。また、てこ比プロットの直線の傾きは、その説明変数に対するパラメータ推定値になっています。図3.58の右側を参照してください。
効果が名義/順序尺度だったり、交互作用のような複雑な効果であったりする場合、てこ比プロットにおける横軸のスケールは説明変数のものではありません。横軸のスケールには、応答変数の単位が使われます。また、描かれる回帰直線は、Y=Xの直線となります。「モデル全体」に対するてこ比プロットも、このような方法で描かれます(てこ比プロットの詳細を参照)。モデル全体に対するてこ比プロットでは、図3.58の左側のように、横軸はモデルの予測値になっています。
なお、単回帰の場合、そのてこ比プロットは、説明変数に対して応答変数の実測値をプロットしたものと同じです。
てこ比(leverage)という用語を用いているのは、これらのプロットが、各効果の検定に対する点の影響を視覚化しているからです。てこ比プロットの横軸方向で端にある点は、中央付近にある点よりも、その効果の検定に対して影響が大きいことを示唆しています。ある効果の検定では、モデル全体の残差平方和と、その効果を除外したモデルでの残差平方和が比較されます。プロットの両端のほうにある点は、仮説で制約した場合としない場合の残差の差が大きくなる傾向があります。そのため、両端のほうにある点は、その効果の仮説検定の平方和に大きく影響します。
多重共線性は、2つ以上の説明変数が強く関連している状態です。より専門的に言えば、いくつかの説明変数がほぼ一次従属になっている状態です。多重共線性がある場合、標準誤差が大きくなり、パラメータ推定値が不安定になります。ある効果が他の説明変数と強い共線性がある場合、点が水平方向で中央に集まります。点が中央に集まっている状態は、回帰直線の傾きの推定値が不安定であることを示しています。
[効果てこ比のプロット]オプションは、モデルの各効果に対して、てこ比プロットを作成します。また、[予測値と実測値のプロット]もてこ比プロットの一種で、「モデル内の(切片を除く)すべてのパラメータが0である」という帰無仮説に対する検定をグラフにしたものです。この帰無仮説に対する検定は、「分散分析」レポートで計算されています(詳細は、てこ比プロットの詳細を参照してください)。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Big Class.jmp」を開きます。
2. [分析]>[モデルのあてはめ]を選択します。
3. 「体重(ポンド)」を選択し、[Y]をクリックします。
4. 「身長(インチ)」、「年齢」、および「性別」を選択し、[追加]をクリックします。
5. [実行]をクリックします。
図3.58の左側は、予測値と実測値のプロットです。右側は、「身長( インチ)」に対するてこ比プロットです。左側のグラフは、モデル全体に対する検定、つまり、モデルに含まれるすべての効果についての検定を表しています。信頼曲線が水平線と交わっているので、モデル全体では有意であることが分かります。一方、右側の「身長(インチ)」に対するてこ比プロットでは、「年齢」と「性別」のモデルに、さらに「身長(インチ)」を追加することは有意であることを示しています。いずれのてこ比プロットでも、影響力が飛びぬけて強い点や、多重共線性の問題は見られません。
図3.58 モデル全体と効果のてこ比プロット