この例では、ブースティングツリーによって、どの印刷物に「印刷縞」と呼ばれる不良が生じるかを予測します。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Bands Data.jmp」を開きます。
2. [分析]>[予測モデル]>[ブースティングツリー]を選択します。
3. 「印刷縞の有無」を選択し、[Y, 目的変数]をクリックします。
4. 「Predictors」列グループを選択し、[X, 説明変数]をクリックします。
5. 「検証データの割合」に「0.2」と入力します。
6. [OK]をクリックします。
「ブースティングツリー」の設定ウィンドウが開きます。
7. (オプション)「再現性」パネルで、[マルチスレッドをオフにする]を選択し、「乱数シード値」として「123」を入力します。
ここでの例の結果は乱数に依存しますが、この設定により数値結果が以下で紹介するものと同じになります。
8. [OK]をクリックします。
図6.2 名義尺度の目的変数の全体の統計量
目的変数とする「印刷縞の有無」がカテゴリカルであるため、「指標」に「誤分類率」が含まれ、「混同行列」レポートが作成されます。検証セットの誤分類率は0.1852、およそ19%です。
9. 「印刷縞の有無のブースティングツリー」の赤い三角ボタンをクリックし、[ツリーの表示]>[名前・カテゴリ・推定値の表示]を選択します。
「ツリーの表示」レポートが作成され、層ごとにアウトラインが作成されます。各層のアウトラインを開けば、その層であてはめられたツリーと予測値を確認できます。
図6.3 ブースティングツリーの層1
10. 「印刷縞の有無のブースティングツリー」の赤い三角ボタンをクリックし、[列の保存]>[予測式の保存]を選択します。
「確率(印刷縞の有無==noband)」、「確率(印刷縞の有無==band)」、「最尤 印刷縞の有無」という3つの列がデータテーブルに追加されます。「確率(印刷縞の有無==noband)」の列を調べ、モデルの予測値が層からどのように計算されたかを確認してみてください。