この例では、ブースティングツリーを作成して、体脂肪率を予測します。説明変数には、名義尺度と連続尺度があります。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Body Fat.jmp」を開きます。
2. [分析]>[予測モデル]>[ブースティングツリー]を選択します。
3. 「体脂肪率」を選択し、[Y, 目的変数]をクリックします。
4. 「年齢」から「手首囲(cm)」までを選択し、[X, 説明変数]をクリックします。
5. 「検証」を選択し、[検証]をクリックします。
6. [OK]をクリックします。
7. [OK]をクリックします。
図6.4 連続尺度の目的変数の全体の統計量
「全体の統計量」レポートには、ブースティングツリーモデルのR2乗とRMSEが表示されます。検証セットの「R2乗」は0.603です。検証セットの「RMSE」は約5.48です。
「体脂肪率」を予測するうえで重要な説明変数がどれを探してみましょう。
8. 「体脂肪率のブースティングツリー」の赤い三角ボタンをクリックし、[プロファイル]を選択します。
9. 「予測プロファイル」の赤い三角ボタンをクリックし、[変数重要度の評価]>[独立な一様分布の入力]を選択します。
注: [変数重要度の評価]オプションは計算で乱数を用いるために、結果は図6.5とはまったく同じにはならないことがあります。
図6.5 変数重要度の要約レポート
「要約レポート」を見ると、「体脂肪率」の最も重要な説明変数は「胴囲(cm)」であることがわかります。