予測モデルおよび発展的なモデル > モデルの比較 > 「モデルの比較」の例

公開日: 09/19/2023

「モデルの比較」の例

この例では、回帰モデルとブートストラップ森を比較します。使用するデータは住宅価格のデータです。この例での分析目的は、住宅価格の中央値を予測するモデルを作成することです。

まず、［ヘルプ］>［サンプルデータフォルダ］を選択し、「Boston Housing.jmp」を開いてください。

検証列の作成

1. ［分析］>［予測モデル］>［検証列の作成］を選択します。

2. 起動ウィンドウでは列を選択しないでください。

これにより、単純無作為抽出による1つの検証列が作成されます。

3. ［OK］をクリックします。

4. 「新しい列の名前」の横のボックスに「検証列」と入力します。

5. 「乱数シード値」の横のボックスに「1234」と入力します。

6. ［実行］をクリックします。

新しい検証列が作成されます。0が割り当てられた行は学習セットとして使われます。一方、1が割り当てられた行は検証セットとして使われます。

回帰モデルを作成し、予測式を列に保存

1. ［分析］>［モデルのあてはめ］を選択します。

2. 「持ち家の価格」を選択し、［Y］をクリックします。

3. 「犯罪率」から「低所得者」までを選択し、［追加］をクリックします。

4. 「検証列」を選択し、［検証］をクリックします。

5. 「手法」リストから［ステップワイズ法］を選択します。

6. ［実行］ボタンをクリックします。

7. 「停止ルール」リストから［閾値p値］を選択します。

8. ［実行］ボタンをクリックします。

9. ［モデルの実行］ボタンをクリックします。

図11.2 「モデルのあてはめ」レポート

「モデルのあてはめ」レポート

10. 予測式を列に保存するには、「応答」の赤い三角ボタンをクリックし、［列の保存］>［予測式］を選択します。

ブートストラップ森モデルを作成し、予測式を列に保存

1. ［分析］>［予測モデル］>［ブートストラップ森］を選択します。

2. 「持ち家の価格」を選択し、［Y, 目的変数］をクリックします。

3. 「犯罪率」から「低所得者」までを選択し、［X, 説明変数］をクリックします。

4. 「検証列」を選択し、［検証］をクリックします。

5. ［OK］をクリックします。

6. ［早期打ち切り］チェックボックスをオンにします。

7. 「乱数シード値」の横のボックスに「617」と入力します。

8. ［OK］をクリックします。

図11.3 ブートストラップ森のモデル

ブートストラップ森のモデル

9. 予測式を列に保存するには、「ブートストラップ森」の赤い三角ボタンをクリックし、［列の保存］>［予測式の保存］を選択します。

モデルの比較

1. ［分析］>［予測モデル］>［モデルの比較］を選択します。

2. 2つの予測式列を選択し、［Y, 予測子］をクリックします。

3. 「検証列」を選択し、［グループ化］をクリックします。

ヒント: グループ化の列を選択しなかった場合で、かつ、すべての説明変数に対して同じ検証列が使用されている場合には、その検証列をグループ変数として追加するよう指示するメッセージが表示されます。

4. ［OK］をクリックします。

図11.4 「モデルの比較」レポート

「モデルの比較」レポート

学習セットの行は、モデルの構築に使用されています。そのため、学習セットのR2乗は過度に大きくなっている可能性があります。学習セットのR2乗は、将来のデータに対する予測精度を正しく予想していません。この傾向は、特にブートストラップ森に対して言えます。

検証セットの統計量によってモデルを比較してください。ブートストラップ森の方が、回帰モデルより、R2乗値が大きくなっています。

5. ［モデルの比較］の赤い三角をクリックし、［プロファイル］を選択します。

図11.5 すべてのモデルの予測プロファイル

すべてのモデルの予測プロファイル

予測プロファイルを使用すると、異なるモデルの各因子の影響を比較できます。プロファイルは、この例で回帰モデルとブートストラップ森モデルを比較したように、異なる種類のモデルを比較するのに役立ちます。