「単純Bayes」の例

ここでは、ある患者の病気の進行が「High」と「Low」のどちらになるかを予測する分類モデルを作成してみます。糖尿病患者442人に関するデータがあります。このデータには、初診から1年後における症状の進行も収集されています。病気の進行度は、「Low」（低）と「High」（高）の2値で測定されました。

1. ［ヘルプ］>［サンプルデータフォルダ］を選択し、「Diabetes.jmp」を開きます。

2. ［分析］>［予測モデル］>［単純Bayes］を選択します。

3. 「Y 2値」を選択し、［Y, 目的変数］をクリックします。

4. 「年齢」から「グルコース」までを選択し、［X, 説明変数］をクリックします。

5. 「検証」列を選択し、［検証］ボタンをクリックします。

6. ［OK］をクリックします。

図8.2 「単純Bayes」レポート

「単純Bayes」レポート

誤分類率は、学習セットで約21%、検証セットで約24%です。「混同行列」を見ると、度数だけで見た場合には、学習セットと検証セットのどちらも、病気の進行が「High」である患者よりも、「Low」である患者のほうで誤分類が多く発生しています。検証セットの結果は、独立したデータでもある程度の分類が行えることを示唆しています。

次に、この単純Bayes法による分類において、どの特徴（説明変数）が重要になっているかを見てみましょう。

7. 「単純Bayes」の赤い三角ボタンをクリックし、［プロファイル］を選択します。

図8.3 病気の進行の予測プロファイル

病気の進行の予測プロファイル

8. 「予測プロファイル」の赤い三角ボタンをクリックし、［変数重要度の評価］>［独立な一様分布の入力］を選択します。

図8.4 変数の重要度

変数の重要度

「要約レポート」は、「HDL」・「BMI」・「LTG」が確率の推定に最も大きな影響を与えていることを示しています。

図8.5 「周辺モデルプロット」レポート

「周辺モデルプロット」レポート

「周辺モデルプロット」レポートの2段目のプロットからは、「HDL」が高い患者は「High」に分類される確率が低いことがわかります。また、「BMI」と「LTG」が高い患者は、「High」に分類される確率が高くなっています。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).