この例では、「パーティション」プラットフォームを使用して、顧客の信用リスクを予想するためのディシジョンツリーを構築します。データには欠測値が含まれているため、[欠測値をカテゴリとして扱う]オプションが役立つかどうかも見てみます。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Equity.jmp」を開きます。
2. [分析]>[予測モデル]>[パーティション]を選択します。
3. 「BAD」を選択し、[Y, 目的変数]をクリックします。
4. 「LOAN」から「DEBTINC」までを選択し、[X, 説明変数]をクリックします。
5. [OK]をクリックします。
1. Shiftキーを押しながら[分岐]をクリックします。
2. 「分岐数を入力」に「5」と入力し、[OK]をクリックします。
3. 「BADのパーティション」の赤い三角ボタンをクリックし、[ROC曲線]をクリックします。
4. 「BADのパーティション」の赤い三角ボタンをクリックし、[列の保存]>[予測式の保存]を選択します。
「確率(BAD==Good Risk)」列と「確率(BAD==Bad Risk)」列には、「欠測値をカテゴリとして扱う」オプションに基づいた予測式によって、ローン申込者の信用リスクを分類する計算式が含まれています。この予測式を、[欠測値をカテゴリとして扱う]を使わなかった場合の予測式と比較してみましょう。
1. 「BADのパーティション」の赤い三角ボタンをクリックし、[やり直し]>[分析の再起動]を選択します。
2. [欠測値をカテゴリとして扱う]の選択を解除します。
3. [OK]をクリックし、[欠測値をカテゴリとして扱う]を使ったディシジョンツリーとROC曲線の作成の手順を繰り返します。
「確率(BAD==Good Risk) 2」列と「確率(BAD==Bad Risk) 2」列には、[欠測値をカテゴリとして扱う]を使わない計算式が含まれています。
2つのモデルのROC曲線を比較してみてください。左側は[欠測値をカテゴリとして扱う]を使ったモデルで、右側は[欠測値をカテゴリとして扱う]を使わなかったモデルです。
図4.15 [欠測値をカテゴリとして扱う]を使ったモデル(左)と[欠測値をカテゴリとして扱う]を使わなかったモデルのROC曲線
[欠測値をカテゴリとして扱う]を使ったモデルの曲線の下の面積(AUC; Area Under Curve)(0.8695)は、[欠測値をカテゴリとして扱う]を使わなかったモデルのAUC(0.7283)より大きくなっています。この例の応答変数は2水準なので、一方の水準のROC曲線は他方の水準のROC曲線と対角線で対称となっています。また、それら両者のAUCは等しいです。
メモ: [欠測値をカテゴリとして扱う]を使わなかった場合、得られるAUCは分析ごとに変化します。[欠測値をカテゴリとして扱う]を使わなかった場合、欠測値を含む行は、分岐のいずれかに無作為に割り当てられます。そのため、分析を再実行すると、結果がわずかに異なります。
次に、「モデルの比較」プラットフォームを用いてこれらのモデルを比較してみましょう。先ほどの手順で作成した2つの予測式の違いを見てみましょう。
1. [分析]>[予測モデル]>[モデルの比較]を選択します。
2. 「確率(BAD==Good Risk)」・「確率(BAD==Bad Risk)」・「確率(BAD==Good Risk) 2」・「確率(BAD==Bad Risk) 2」を選択し、[Y, 予測子]をクリックします。
最初の計算式列ペアには[欠測値をカテゴリとして扱う]を使ったモデルの計算式が含まれています。2つ目の計算式列ペアには[欠測値をカテゴリとして扱う]を使わなかったモデルの計算式が含まれています。
3. [OK]をクリックします。
図4.16 「モデルの比較」で得られた適合度指標
「適合度指標」レポートを見ると、[欠測値をカテゴリとして扱う]を使った最初のモデルの方が、[欠測値をカテゴリとして扱う]を使わなかった2つ目のモデルより予測精度が良いことがわかります。最初のモデルの方が、R2乗値が大きく、RMSE値と誤分類率が小さくなっています。これらの傾向はROC曲線を比較しても分かります。
メモ: 前述したとおり、[欠測値をカテゴリとして扱う]を使わなかったときの結果は、乱数に依存しているために異なります。