「ステップワイズ回帰の設定」パネルでは、説明変数を取捨選択するときの有意水準や方法を指定したり、処理を開始/停止したりできます。除外されている行または欠測値の行がある場合は、[実行]ボタンの下にその旨を示すメモが表示されます。
図5.3 「ステップワイズ回帰の設定」パネル
[停止ルール]では、変数選択の方法を指定します。[閾値p値]以外のすべての停止ルールに対しては、方向として[変数増加]と[変数減少]のいずれかだけを使用できます。検証データを使用する停止ルールは、[最大検証R2乗]と[最大K分割R2乗]だけです。検証セットの使用を参照してください。
閾値p値
p値に基づいて変数を追加/削除します。このオプションを選択すると、さらに2つのオプションが表示されます。
[変数を追加するときのp値]
には、モデルに変数を追加するときのp値の上限を指定します。
[変数を除去するときのp値]
には、モデルから変数を削除するときのp値の下限を指定します。
最小AICc
AICc(修正された赤池情報量規準)が最小となるモデルを選択します。詳細については、尤度・AICc・BICを参照してください。
最小BIC
BIC(Schwartzのベイズ情報量規準)が最小となるモデルを選択します。詳細は、尤度・AICc・BICを参照してください。
最大検証R2乗
検証データのR2乗が最大となるモデルを選択します。これは、検証列が指定されており、その列に一意の値が2~3個ある場合にのみ指定できます。検証については、「検証」列の値が2つまたは3つの場合を参照してください。
最大K分割R2乗
K分割交差検証のR2乗が最大となるモデルを選択します。ステップワイズの赤い三角ボタンメニューで[K分割交差検証]オプションを選択すると、停止ルールとして[最大K分割R2乗]が選択できるようになります。JMP Proの場合は、指定した検証列に4つ以上の値があるときにも、このオプションを選択できます。このオプションを選択すると、分割の数を指定するよう求められます。検証については、K分割交差検証を参照してください。
変数を選択する際の方向を指定します。次のいずれかのオプションを選択してください。
変数増加
p値が最も小さい項からモデルに追加していきます。停止ルールに[閾値p値]を選択した場合は、「変数を追加するときのp値」で指定した水準以下のものしか追加されません。変数増加法の例を参照してください。
変数減少
p値が最も大きい項からモデルから削除していきます。停止ルールに[閾値p値]を選択した場合は、「変数を除去するときのp値」で指定した水準以上のものしか削除されません。変数減少法の例を参照してください。
注: [方向]で[変数減少]を選択した場合は、必ず[すべて追加]をクリックしてから[実行]または[ステップ]をクリックしてください。
変数増減
停止ルールに[閾値p値]を選択した場合にのみ使用可能です。変数増減法とも呼ばれ、変数の追加と削除を交互に実行します。「変数を追加するときのp値」を満たす変数のうちでp値が最小のものが追加され、「変数を除去するときのp値」を満たす変数のうちでp値が最大のものが削除されます。モデルから変数を削除する処理は、すべての変数が有意になるまで行われ、有意な項だけが残った時点で、変数を追加するステップに切り替わります。
[実行]、[停止]、[ステップ]ボタンを使って、モデルに項を追加または削除する方法をコントロールできます。
注: どの停止ルールもp値に基づき変数を追加や削除することによってあてはめられるモデルだけを考慮します。変数のすべての組み合わせを考慮するわけではありません。
実行
項の追加(変数増加)または削除(変数減少)の処理を自動的に行います。あてはめたモデルのうち、選択された停止ルールに基づいて最良とみなされたモデルがリストの最後に表示されます。[停止ルール]が[閾値p値]である場合を除き、最良のモデルとして選ばれたモデルは、指定された基準から見て大域的に最良なモデルではなく、単に局所的に最良なモデルです。[モデルの作成]と[モデルの実行]をクリックすると選ばれた最良のモデルがあてはめられますが、あてはめられるモデルは各モデルの右側にあるラジオボックスを選択すると変更できます。
– [閾値p値]の場合、最良のモデルは「変数を追加するときのp値」と「変数を除去するときのp値」の基準に基づきます。閾値p値を参照してください。
– [最小AICc]と[最小BIC]では、最良のモデルが見つかるまであてはめが自動的に実行されます。ここでの最良のモデルは、AICcやBICが最小となるモデルです。モデルをあてはめていき、AICcやBICが現在の値よりも連続で10個大きいものが続けば処理を打ち切ります。最終的に選択された最良のモデルに対しては、「パラメータ」列に「最適」と、「アクション」列に「特定」と表示されます。
– [最大検証R2乗](JMP Proのみ)と[最大K分割R2乗]でも、最良のモデルが見つかるまであてはめが自動的に実行されます。ここでの最良のモデルは、検証R2乗やK分割R2乗が最大となるモデルです。モデルをあてはめていき、検証R2乗やK分割R2乗が現在の値よりも連続で10個小さいものが続けば処理を打ち切ります。最終的に選択された最良のモデルに対しては、「パラメータ」列に「最適」と、「アクション」列に「特定」と表示されます。
停止
[実行]ボタンによって開始された自動選択処理を停止します。
ステップ
[変数増加]または[変数減少]の方向に、項を1つずつ追加または削除します。「ステップ履歴」レポートにて、モデルの右横のボタンをクリックすると、現在、あてはめられているモデルが変更されます。この選択に応じて、「現在の推定値」レポート内のモデル項の選択内容が更新されます。[モデルの作成]または[モデルの実行]をクリックしたときにあてはめられるモデルは、この更新された現在のモデルです。
注: この節で説明するオプションは、階層的な関係にある項がモデルに含まれている場合にのみ表示されます。名義尺度または順序尺度の変数がある場合、関連する項が作成され、「現在の推定値」表に表示されます。
[ルール]では、モデルの項に階層的な関係があるときに適用したいルールを選択します。次のような場合に階層が生じます。
• ある変数が別の変数の構成要素である場合は、階層が生じます。たとえば、モデルにA、B、A*Bという変数があるとき、AとBは、階層においてA*Bの上位の項となっています。
• 名義尺度または順序尺度の変数を含めた場合も、階層が生じます。ある項をモデルに含めるときに、先に含めないといけない項がある場合、後者の項を、階層における上位の項と呼びます。階層的な項の作成を参照してください。
次のいずれかのオプションを選択してください。
組み合わせ
ある項を追加するかどうかを検討する際、その項に対する上位の項がある場合に、2つの検定のp値における最大値が計算されます。1番目のp値、p1は、該当する項と上位の項を一緒にまとめてF検定した結果のp値です。2番目のp2は、上位の項をモデルに追加した後に計算される、その項だけのp値です。最終的なp値は、max(p1, p2)と定義されます。
ヒント: [組み合わせ]ルールは、特に強い効果を持つ上位の項がある場合に、有意でない交互作用効果が含まれてしまうのを防ぎます。この例では、主効果が強いために、主効果と交互作用と一緒に検定したp値であるp1は非常に小さくなる可能性があります。しかし、交互作用自体は有意でないので、2番目のp値は大きくなるでしょう。その結果、大きな値となっているp2のほうが、最終的なp値として使用されます。
警告: 上位の項を持つ項における「自由度」は、大きい方のp値の検定における自由度です。つまり、「現在の推定値」表にある「自由度」は、最終的に使われた検定の自由度です。p1が使用された場合、「自由度」はその項と上位と項を組み合わせた全体の自由度です。一方、p2が使用された場合、「自由度」は1になります。
[組み合わせ]オプションは、デフォルトで適用されるルールです。交差・交互作用・多項式の項を含んだモデルを参照してください。
制限
上位の項が追加されないと下位の項も追加されないように、制限が課されます。名義尺度や順序尺度の効果を含んだモデルおよび階層的な項に対する[制限]ルールの例を参照してください。
ルールなし
階層に関係なく、項が完全に自由に選択されます。
効果全体
その効果に関与する項が有意な場合に、効果全体が追加されます。このルールは、3水準以上のカテゴリカル変数がモデル効果にある場合のみ意味があります。ルールを参照してください。
「ステップワイズ回帰の設定」パネルには次のボタンがあります。
実行
選択処理を最後まで実行します。
停止
選択処理を停止します。
ステップ
選択処理を1ステップずつ実行します。
矢印ボタン
変数追加や変数除去を、1ステップだけ実行します。
すべて追加
ロックされていない項をすべてモデルに追加します。
すべて削除
ロックされていない項をすべてモデルから削除します。
モデルの作成
「モデルのあてはめ」ウィンドウを開き、「現在の推定値」表に表示されているモデルを作成します。名義尺度または順序尺度の変数がある場合は、[モデルの作成]を行うと、変数選択の結果に応じて、一時的な変換列も作られます。
モデルの実行
「現在の推定値」表に表示されているモデルを実行します。名義尺度または順序尺度の変数がある場合は、[モデルの実行]を行うと、変数選択の結果に応じて、一時的な変換列も作られます。
「ステップワイズ回帰の設定」パネルの下には、次のような統計量が表示されます。
SSE
現在のモデルから計算される誤差(残差)の平方和。
DFE
現在のモデルから計算される誤差の自由度。
RMSE
現在のモデルから計算される誤差の標準偏差(誤差の平均平方の平方根)。
R2乗
決定係数、寄与率とも呼ばれている統計量。応答変数の変動のうちで、モデルの効果によって説明される割合を表します。
自由度調整R2乗
パラメータ数が異なるモデルでも比較できるように、自由度によってR2を調整したもの。モデルに含まれる項の数を調整してあるため、ステップワイズ法で候補に挙がったモデルを比較するときに有効です。
Cp
MallowsのCp規準。誤差平方和を調整した指標で、次の式で定義されます。
s2は完全モデルのMSE(誤差の平均平方)で、SSEpは、切片を含めてp個のパラメータがあるモデルの誤差平方和です。pは説明変数の個数に1を足したものです。Mallows(1973)は、pに対してCpをプロットしたときに、Cpがpに近づき始めたところのモデルを選ぶことを推奨しています。
p
切片を含むモデルパラメータの数。
AICc
修正済みの赤池の情報量規準。詳細は、尤度・AICc・BICを参照してください。
BIC
ベイズ情報量規準。詳細は、尤度・AICc・BICを参照してください。
変数増加法は、切片だけのモデルに、有意な項から順に追加していきます。モデルに含まれていない項がすべて有意でなくなるまで、項は追加されていきます。
1. ステップワイズ回帰の使用例の手順を完了します。
[方向]は、デフォルトの[変数増加]のままにしてください。
2. [ステップ]をクリックします。
図5.4で、この1ステップを行った時点で、最も有意な項である「走行時間」がモデルに追加されます。
3. [実行]をクリックします。
図5.5で、「体重」と「休息時の脈拍」を除いたすべての項が追加されているのがわかります。
図5.4 1ステップを行った後における変数増加の「現在の推定値」表
図5.5 3ステップを行った後における変数増加法の「現在の推定値」表
変数減少法は、すべての項を含むモデルから、有意でない項を順に削除していきます。モデルに含まれている項がすべて有意になるまで、項は削除されていきます。
1. ステップワイズ回帰の使用例の手順を完了します。
2. [すべて追加]をクリックします。
図5.6 すべての効果が追加されたモデル
3. [方向]で[変数減少]を選択します。
4. [ステップ]を2回クリックします。
第1ステップで「休息時の脈拍」が、第2ステップで「体重」がモデルから削除されます。
図5.7 有意でない項が削除された後の結果