カテゴリカルな応答変数に対するブートストラップ森の例

この例では、顧客の信用リスクが悪いかどうかを予測するブートストラップ森モデルを構築します。その後、説明変数の値が欠落している程度を調べます。

ブートストラップ森のモデル

1. ［ヘルプ］>［サンプルデータフォルダ］を選択し、「Equity.jmp」を開きます。

2. ［分析］>［予測モデル］>［ブートストラップ森］を選択します。

3. 「BAD」を選択し、［Y, 目的変数］をクリックします。

4. 「LOAN」から「DEBTINC」までを選択し、［X, 説明変数］をクリックします。

5. 「Validation」列を選択し、［検証］ボタンをクリックします。

6. ［OK］をクリックします。

7. 「1分岐あたりに抽出される項の数」の横に「4」と入力します。

8. 「ツリーあたりの最大分岐数」の横に「30」と入力します。

9. ［項数に対する複数のあてはめ］を選択し、「項の最大数」の横に「10」と入力します。

10. （オプション）［マルチスレッドをオフにする］を選択し、「乱数シード値」の横に「123」と入力します。

ブートストラップ森では無作為抽出が行われますが、上記の操作を行うことにより、下の図とまったく同じ結果を得ることができます。

11. ［OK］をクリックします。

図5.2 「全体の統計量」レポート

「全体の統計量」レポート

［項数に対する複数のあてはめ］オプションでの指定に従って、各分岐で説明変数が4～6, 8, 10個抽出されます。「検証セットでのモデル要約」レポートを見ると、検証セットにおいて「エントロピーR2乗」が最大となるのは、各分岐で説明変数を5個、抽出したモデルです。このモデルは、誤分類率も最小になっています。このモデルが最良のモデルであり、「全体の統計量」レポートには、このモデルの結果が表示されています。

「全体の統計量」レポートを見ると、「検証」セットと「テスト」セットの誤分類率が、それぞれ11.4%と9.9%になっています。また、混同行列を見ると、誤分類においては、「信用リスクが悪い顧客を信用リスクが良いとして分類している」ほうが多いことが分かります。

「テスト」セットの結果は、将来の独立したデータに対する予測精度を示します。「検証」セットは現在のブートストラップ森モデルを選択する際に使用されました。そのため、「検証」セットの結果は、独立した将来のデータに一般化するには、バイアス（偏り）をもっています。

次に、このモデルに最も寄与している説明変数を見てみましょう。

12. 「ブートストラップ森(BAD)」の横にある赤い三角ボタンをクリックし、［列の寄与］を選択します。

図5.3 「列の寄与」レポート

「列の寄与」レポート

「列の寄与」レポートを見ると、顧客の信用リスクに関する最も強い説明変数は「DEBTINC」であることがわかります。これは、収入に対する債務の比です。その次に大きく寄与しているのは、顧客の評価である「VALUE」や、滞納している支払いの回数である「DELINQ」です。

欠測値

1. ［分析］>［スクリーニング］>［欠測値を調べる］を選択します。

2. 「BAD」から「DEBTINC」までを選択し、［Y, 列］をクリックします。

3. 表示される警告で、［OK］をクリックします。

なお、「REASON」と「JOB」は、データタイプが文字型であり、名義尺度です。その他の列は、データタイプが数値型であり、連続尺度です。

4. ［OK］をクリックします。

図5.4 欠測値のレポート

欠測値のレポート

「DEBTINC」列には1267個の欠測値があり、これは観測数の約21%に相当します。また、その他のほとんどの列にも欠測値があります。先ほどの例では起動ウィンドウにある［欠測値をカテゴリとして扱う］オプションを用いましたが、その場合、これらの欠測値を含んだデータも分析に使われます。ROC曲線を参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).