この例では、住宅担保ローンを申し込んだ顧客の信用リスクを分類するためのモデルを作成します。5,960人の各顧の資産状況に関する履歴データがあり、各顧客は「リスクが低い」(Good Risk)と「リスクが高い」(Bad Risk)に分類されています。このデータの多くの説明変数には欠測値があります。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Equity.jmp」を開きます。
2. [分析]>[予測モデル]>[K近傍法]を選択します。
3. 「BAD」を選択し、[Y, 目的変数]をクリックします。
4. 「LOAN」から「CLNO」までを選択し、[X, 説明変数]をクリックします。
説明変数の1つである「DEBTINC」は、欠測値が多いです。ここではモデルに含めないことにします。なお、連続尺度の説明変数における欠測値は、その説明変数の平均によって補完されます。このような補完は、場合によっては妥当な方法ではありません。DEBINCの欠測値が多いのですが、このような欠測値が多い変数を分析に加えたほうが、予測精度が上がる場合もあります。しかし、この例では分析に使いません。
5. 「Validation」列を選択し、[検証]ボタンをクリックします。
6. [OK]をクリックします。
図7.2 「K近傍法」レポート
JMPは、学習セットのデータだけを使用して、Kの値を変化させて、1つずつモデルをあてはめます。そして、その作成された各モデルに対して、検証セットのデータが分類されます。検証セットの結果は、最良のモデルを選択するのに使用されます。この例において、1つの近傍点(K = 1)に基づいたモデルの誤分類率が最も小さくなっています。また、テストセットでも、1つの近傍点(K = 1)に基づいたモデルの誤分類率が最も低いです。
7. 「BAD」の赤い三角ボタンをクリックし、[予測式を発行]を選択します。
8. [近傍点の個数, K]の隣は、デフォルト値の1のままにします。
9. [OK]をクリックします。
予測式は、「計算式デポ」に保存できます。別のモデルも「計算式デポ」に保存すれば、K = 1近傍モデルと比較できます。計算式デポを参照してください。