公開日: 11/25/2021

Image shown here「単純Bayes」の例

ここでは、ある患者の病気の進行が「High」と「Low」のどちらになるかを予測する分類モデルを作成してみます。糖尿病患者442人に関するデータがあります。このデータには、初診から1年後における症状の進行も収集されています。病気の進行度は、「Low」(低)と「High」(高)の2値で測定されました。

1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Diabetes.jmp」を開きます。

2. [分析]>[予測モデル]>[単純Bayes]を選択します。

3. 「Y 2値」を選択し、[Y, 目的変数]をクリックします。

4. 「年齢」から「グルコース」までを選択し、[X, 説明変数]をクリックします。

5. 「検証」列を選択し、[検証]ボタンをクリックします。

6. [OK]をクリックします。

図8.2 「単純Bayes」レポート 

Naive Bayes Report

誤分類率は、学習セットで約21%、検証セットで約24%です。「混同行列」を見ると、学習セットと検証セットのどちらも、病気の進行が「High」である患者よりも、「Low」である患者のほうで誤分類が多く発生しています。検証セットの結果は、独立したデータでもある程度の分類が行えることを示唆しています。

次に、この単純Bayes法による分類において、どの特徴(説明変数)が重要になっているかを見てみましょう。

7. 「単純Bayes」の赤い三角ボタンをクリックし、[プロファイル]を選択します。

図8.3 病気の進行の予測プロファイル 

Prediction Profiler for Disease Progression

8. 「予測プロファイル」の赤い三角ボタンをクリックし、[変数重要度の評価]>[独立な一様分布の入力]を選択します。

図8.4 変数の重要度 

Variable Importance

「要約レポート」は、「HDL」「BMI」「LTG」が確率の推定に最も大きな影響を与えていることを示しています。

図8.5 「周辺モデルプロット」レポート 

Marginal Model Plots Report

「周辺モデルプロット」レポートの2段目のプロットからは、「HDL」が高い患者は「High」に分類される確率が低いことがわかります。また、「BMI」「LTG」が高い患者は、「High」に分類される確率が高くなっています。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).