この例では、回帰モデルとブートストラップ森を比較します。使用するデータは住宅価格のデータです。この例での分析目的は、住宅価格の中央値を予測するモデルを作成することです。
まず、[ヘルプ]>[サンプルデータフォルダ]を選択し、「Boston Housing.jmp」を開いてください。
1. [分析]>[予測モデル]>[検証列の作成]を選択します。
2. 起動ウィンドウでは列を選択しないでください。
これにより、単純無作為抽出による1つの検証列が作成されます。
3. [OK]をクリックします。
4. 「新しい列の名前」の横のボックスに「検証列」と入力します。
5. 「乱数シード値」の横のボックスに「1234」と入力します。
6. [実行]をクリックします。
新しい検証列が作成されます。0が割り当てられた行は学習セットとして使われます。一方、1が割り当てられた行は検証セットとして使われます。
1. [分析]>[モデルのあてはめ]を選択します。
2. 「持ち家の価格」を選択し、[Y]をクリックします。
3. 「犯罪率」から「低所得者」までを選択し、[追加]をクリックします。
4. 「検証列」を選択し、[検証]をクリックします。
5. 「手法」リストから[ステップワイズ法]を選択します。
6. [実行]ボタンをクリックします。
7. 「停止ルール」リストから[閾値p値]を選択します。
8. [実行]ボタンをクリックします。
9. [モデルの実行]ボタンをクリックします。
図11.2 「モデルのあてはめ」レポート
10. 予測式を列に保存するには、「応答」の赤い三角ボタンをクリックし、[列の保存]>[予測式]を選択します。
1. [分析]>[予測モデル]>[ブートストラップ森]を選択します。
2. 「持ち家の価格」を選択し、[Y, 目的変数]をクリックします。
3. 「犯罪率」から「低所得者」までを選択し、[X, 説明変数]をクリックします。
4. 「検証列」を選択し、[検証]をクリックします。
5. [OK]をクリックします。
6. [早期打ち切り]チェックボックスをオンにします。
7. 「乱数シード値」の横のボックスに「617」と入力します。
8. [OK]をクリックします。
図11.3 ブートストラップ森のモデル
9. 予測式を列に保存するには、「ブートストラップ森」の赤い三角ボタンをクリックし、[列の保存]>[予測式の保存]を選択します。
1. [分析]>[予測モデル]>[モデルの比較]を選択します。
2. 2つの予測式列を選択し、[Y, 予測子]をクリックします。
3. 「検証列」を選択し、[グループ化]をクリックします。
ヒント: グループ化の列を選択しなかった場合で、かつ、すべての説明変数に対して同じ検証列が使用されている場合には、その検証列をグループ変数として追加するよう指示するメッセージが表示されます。
4. [OK]をクリックします。
図11.4 「モデルの比較」レポート
学習セットの行は、モデルの構築に使用されています。そのため、学習セットのR2乗は過度に大きくなっている可能性があります。学習セットのR2乗は、将来のデータに対する予測精度を正しく予想していません。この傾向は、特にブートストラップ森に対して言えます。
検証セットの統計量によってモデルを比較してください。ブートストラップ森の方が、回帰モデルより、R2乗値が大きくなっています。
5. [モデルの比較]の赤い三角をクリックし、[プロファイル]を選択します。
図11.5 すべてのモデルの予測プロファイル
予測プロファイルを使用すると、異なるモデルの各因子の影響を比較できます。プロファイルは、この例で回帰モデルとブートストラップ森モデルを比較したように、異なる種類のモデルを比較するのに役立ちます。
• 『基本的な回帰モデル』のモデルの指定
• パーティション