糖尿病の症状の進行を予測するために、さまざまな種類のモデルをあてはめることにします。このデータセットには、糖尿病患者442人のデータと、各患者の初診から1年後における症状の進行を示す連続尺度の測定値が含まれています。値が大きいほど、症状の進行が進んでいます。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Diabetes.jmp」を開きます。
2. [分析]>[予測モデル]>[モデルのスクリーニング]を選択します。
3. 「Y」を選択し、[Y, 目的変数]をクリックします。
4. 「年齢」から「グルコース」までを選択し、[X, 説明変数]をクリックします。
5. 「交差検証法の設定」セクションで、[K分割交差検証]チェックボックスをオンにします。
6. (オプション)「処理の設定」セクションで、「乱数シード値の設定」の横に「42920」と入力します。
例と同じ出力を得るには、この乱数シードを使用してください。
7. [OK]をクリックします。
8. 「モデルのスクリーニング: Y」の横にある赤い三角ボタンをクリックし、[追加のレポート]>[処理時間]を選択します。
図10.2 連続尺度の応答変数に対するモデルレポート
分割全体で平均された「検証 R2乗」によると、最も性能の良いモデルは「ニューラル ブースティング」です。ニューラル ブースティングの平均「検証 R2乗」は0.5503です。「処理時間」レポートからわかるように、「ニューラル ブースティング」のモデルは、処理時間も最長になっています。この例では、処理時間はたったの5秒ですが、大規模なデータセットを扱う場合やモデルが複雑な場合には、この情報が重要になることもあります。
ヒント: 個々のモデルの予測性能に関する指標を見るには、「検証」の横にあるグレーの開閉アイコンをクリックしてください。