ここでは、ある患者の病気の進行が「High」と「Low」のどちらになるかを予測する分類モデルを作成してみます。糖尿病患者442人に関するデータがあります。このデータには、初診から1年後における症状の進行も収集されています。病気の進行度は、「Low」(低)と「High」(高)の2値で測定されました。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Diabetes.jmp」を開きます。
2. [分析]>[予測モデル]>[単純Bayes]を選択します。
3. 「Y 2値」を選択し、[Y, 目的変数]をクリックします。
4. 「年齢」から「グルコース」までを選択し、[X, 説明変数]をクリックします。
5. 「検証」列を選択し、[検証]ボタンをクリックします。
6. [OK]をクリックします。
図8.2 「単純Bayes」レポート
誤分類率は、学習セットで約21%、検証セットで約24%です。「混同行列」を見ると、学習セットと検証セットのどちらも、病気の進行が「High」である患者よりも、「Low」である患者のほうで誤分類が多く発生しています。検証セットの結果は、独立したデータでもある程度の分類が行えることを示唆しています。
次に、この単純Bayes法による分類において、どの特徴(説明変数)が重要になっているかを見てみましょう。
7. 「単純Bayes」の赤い三角ボタンをクリックし、[プロファイル]を選択します。
図8.3 病気の進行の予測プロファイル
8. 「予測プロファイル」の赤い三角ボタンをクリックし、[変数重要度の評価]>[独立な一様分布の入力]を選択します。
図8.4 変数の重要度
「要約レポート」は、「HDL」・「BMI」・「LTG」が確率の推定に最も大きな影響を与えていることを示しています。
図8.5 「周辺モデルプロット」レポート
「周辺モデルプロット」レポートの2段目のプロットからは、「HDL」が高い患者は「High」に分類される確率が低いことがわかります。また、「BMI」と「LTG」が高い患者は、「High」に分類される確率が高くなっています。