ステップワイズ回帰で「検証」列の値が2つまたは3つの場合

基本的な回帰モデル > ステップワイズ回帰モデル > ステップワイズ回帰の検証オプション > ステップワイズ回帰で「検証」列の値が2つまたは3つの場合

公開日: 09/19/2023

ステップワイズ回帰で「検証」列の値が2つまたは3つの場合

ここに画像を表示検証列に含まれている値が2つまたは3つの場合には、モデルの推定は1つの学習セットに基づいて行われます。そして、モデルの適合度統計量は、検証セットやテストセットに対してもレポートされます。これらの統計量の定義については、検証セットやテストセットの適合度統計量を参照してください。

応答が連続尺度の場合、「ステップワイズ回帰の設定」パネルには次の統計量が表示されます。

• R2乗検証（「ステップ履歴」レポートにも表示されます）

• RASE 検証

• R2乗テスト（テストセットがある場合）

• RASE テスト（テストセットがある場合）

応答が二値の名義尺度または順序尺度の場合、「ステップワイズ回帰の設定」パネルには次の統計量が表示されます。

• R2乗検証（「ステップ履歴」レポートにも表示されます）

• 平均対数誤差検証

• R2乗テスト（テストセットがある場合）

• 平均対数誤差テスト（テストセットがある場合）

最大検証R2乗

「モデルのあてはめ」ウィンドウで2つまたは3つの値を持つ検証列を指定した場合は、「停止ルール」のデフォルトが［最大検証R2乗］になります。［最大検証R2乗］のルールは、検証セットのR2乗統計量が最大になるモデルを見つけようとします。このルールは［変数増加］および［変数減少］において適用できます。

メモ: ［最大検証R2乗］は、p値に基づく変数の追加（変数増加）または削除（変数減少）によってあてはめられていったモデルだけを検討し、考えられるすべてのモデルを検討するわけではありません。

［変数増加］または［変数減少］の方向に、1つずつ変数を追加または削除していくには、［ステップ］ボタンを使用します。「ステップ履歴」レポートで、「R2乗検証」の右横のボタンをクリックすれば、いつでもモデルを選択できます。この選択に応じて、「現在の推定値」レポート内のモデル項の選択内容が更新されます。［モデルの作成］または［モデルの実行］をクリックしたときにあてはめられるモデルは、この更新された現在のモデルです。

変数増加

［変数増加］におけるステップワイズ法では、p値が最も小さい項をモデルに追加していきます。

［ステップ］ではなく［実行］をクリックした場合は、項の追加処理が自動的に行われます。あてはめたモデルのうち、最良とみなされたモデルはリストの最後に表示されます。このモデルは、検証データのR2乗を（大域的にではなく）単に局所的に最大化しているものです。具体的には、モデルをあてはめていき、「R2乗検証」の値が現在の値よりも連続で10個小さいものが続けば処理を打ち切ります。最終的に選択された最良のモデルに対しては、「パラメータ」列に「最適」と、「アクション」列に「特定」と表示されます。最良のモデルは「R2乗検証」の右のボタンで選択されていますが、この選択は変更することもできます。

変数減少

［変数減少］におけるステップワイズ法では、p値が最も大きい項をモデルから削除していきます。

方向を［変数減少］にする場合は、まず［すべて追加］をクリックしてすべての項をモデルに含める必要があります。［変数減少］の処理は［変数増加］の処理と同様に行われます。［ステップ］ではなく［実行］をクリックした場合は、項の削除処理が自動的に行われます。モデルをあてはめていき、「R2乗検証」の値が現在の値よりも連続で10個小さいものが続けば処理を打ち切り、そのモデルを最良のものとみなします。

検証セットやテストセットの適合度統計量

この節では、「R2乗検証」と「RASE 検証」の定義について説明します。テストセットの「R2乗テスト」と「RASE テスト」も同様の方法で計算されています。

応答変数が連続尺度の場合

R2乗検証

検証セットのR2乗値は次のように計算されます。

– 検証セットの各行について、残差が計算されます。この残差は、検証データの各行において、実測値から、学習セットで推定されたモデルに基づく予測値を引いたものです。

– その残差から、残差平方和「SSE検証」が計算されます。

– 検証セットにおいて、（検証データの）実測値と（検証データの）全平均との差の平方和が求められます。この値を「SST検証」とします。

– 「R2乗検証」の計算式は、次式の通りです。

ここに式を表示

メモ: 「R2乗検証」は負の値になる場合もあります。

RASE 検証

これは、検証セットにおける平均平方誤差の平方根で、次のように計算されます。

– 検証セットの各行について、残差が計算されます。この残差は、検証セットの各行において、実測値から、学習セットで推定されたモデルに基づく予測値を引いたものです。

– その残差から、残差平方和「SSE検証」が計算されます。

– ここでは検証セットの標本サイズをn検証と記します。

– 「RASE 検証」の計算式は、次式の通りです。

ここに式を表示

応答変数が二値や順序尺度である場合

R2乗検証

検証セットのエントロピーR2乗指標（McFaddenのR2ともいう）は次のように計算されます。

– 学習セットに対してモデルがあてはめられます。

– すべての行に対して、予測確率が求められます。

– 学習セットで推定されたモデルに基づく予測確率を使って、検証セットからモデルの尤度が計算されます。この値を尤度_完全検証とします。

– 検証セットのデータを使って、縮小モデル（説明変数が1つもないモデル）の尤度が計算されます。この値を尤度_縮小検証とします。

– 「R2乗検証」の計算式は、次式の通りです。

ここに式を表示

メモ: 「R2乗検証」は負の値になる場合もあります。

平均対数誤差検証

検証セットの平均対数誤差は次のように計算されます。

– 学習セットで推定されたモデルに基づいて、検証セットの各行について予測確率の対数が計算されます。

– これらの予測確率の対数を合計したものを検証セットの標本サイズで割り、その符号を逆にします。

ヒント: 「平均対数誤差検証」の値は小さいほうが、良く適合していることを意味しています。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).