データ |
ここでは、442人の糖尿病患者のデータを扱います。このデータには、基準となる臨床検査データと、初診から1年後における症状の進行が含まれています。症状の進行は、「Low」と「High」で測定されています。 |
手法 |
この例では、X軸に並べて2変数をプロットした散布図を作成します。また、軸をカスタマイズし、注釈も付けます。 |
目標 |
この例の目標は、2つの分類モデルについて、症状進行が「High」になる予測確率を比較することです。 |
臨床検査データに基づいて症状の進行を分類する分類モデルを作成したいとします。2つの異なる分類モデルを構築し、それらの予測確率を保存し、それらの2つの分類モデルの精度を比較します。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Diabetes.jmp」を開きます。
2. 「Y 2値のディシジョンツリー」スクリプトの横にある緑の三角ボタンをクリックして、ディシジョンツリーをあてはめます。
3. 「Y 2値のパーティション」の赤い三角ボタンをクリックし、「列の保存」>「予測式の保存」を選択します。このウィンドウを閉じます。
これで、確率の計算式がデータテーブルに保存されます。
4. データテーブルで、「確率(Y 2値= = High)」列を右クリックし、[列情報]を選択します。
5. 列名を「パーティション 確率 High」に変更し、[OK]を選択します。
6. 「Y 2値のニューラル」スクリプトの横にある緑の三角ボタンをクリックして、ニューラルネットをあてはめます。
7. 「モデル NTanH(3)」の赤い三角ボタンをクリックし、「プロファイル式の保存」を選択します。このウィンドウを閉じます。
これで、確率の計算式がデータテーブルに保存されます。
8. データテーブルで、「確率(Y 2値=High)」列を右クリックし、[列情報]を選択します。
9. 列名を「ニューラル 確率 High」に変更し、[OK]を選択します。
症状の進行が「High」である患者のモデル予測確率を比較してみましょう。
1. [グラフ]>[グラフビルダー]を選択します。
2. 「パーティション 確率 High」を選択し、「X」ゾーンにドラッグします。
3. 「ニューラル 確率 High」を選択し、「X」ゾーンの「パーティション 確率 High」の右側にドラッグします。これで、2つ目のX軸が作成されます。
図4.18 「ニューラル 確率 High」を「パーティション 確率 High」の右側にドラッグした状態
4. 「Y 2値」を選択し、「重ね合わせ」ゾーンにドラッグします。
5. 「グラフビルダー」の赤い三角ボタンをクリックし、「グラフ間のスペース」を選択します。
6. 「グラフ間のスペース」の横に「6」と入力し、[OK]をクリックします。
これで、2つのX軸間のスペースが広くなります。
図4.19 最初のモデル確率のグラフ
どちらのモデル化プラットフォームでも、デフォルトの閾値は0.50です。つまり、患者の予測確率が「High」の0.50より大きい場合、その患者の予測分類は「High」になります。グラフ内に閾値を表示するには参照線を使用します。
1. 「パーティション 確率 High」のX軸を右クリックし、「軸の設定」を選択します。
2. 「スケール」の「順序を逆にする」チェックボックスをオンにします。
3. 「目盛り/棒の間隔」セクションで、「補助目盛りの数」を「2」に設定します。
4. 「参照線」セクションで、「値」と「ラベル」のボックスにそれぞれ「0.5」を入力します。
5. 「線種」のボックスに「3」と入力します。この「3」は参照線の太さを意味します。
6. [追加]をクリックします。
図4.20 X軸の設定
7. [OK]をクリックします。
8. 「パーティション 確率 High」のX軸を右クリックし、「編集」>「軸の設定をコピー」を選択します。
「ニューラル 確率 High」のX軸を右クリックし、「編集」>「軸の設定を貼り付け」を選択します。
9. [終了]をクリックします。
1. メインメニューで、[ツール]>[直線]をクリックします。「パーティション 確率 High」グラフで、参照線から左側に向かって横線を引きます。
図4.21 「パーティション 確率 High」の参照線の左側に引かれた線
2. この線を右クリックし、[終点に矢印]を選択します。
矢印が参照線から離れる方向を向いていなければなりません。
3. メインメニューで、[ツール]>[注釈ツール]をクリックし、グラフ内の矢印の上をクリックします。
4. テキストボックスに「“High”に分類」と入力します。図4.22を参照してください。
5. 「ニューラル 確率 High」グラフについて、ステップ1~ステップ4を繰り返します。
図4.22 予測確率の分布
このグラフは、2つのモデル間で予測確率の分布が異なることを示しています。パーティションモデルでは、予測確率が5つだけに分かれています。ニューラルモデルでは、予測確率は0~1の範囲でばらついています。どちらのモデルにも、各プロットの右寄りに青いデータ点が集まっています。これらの塊は、閾値の右側にあるため、正しく分類された「Low」のデータ点を表しています。