糖尿病患者442人に関するデータがあります。また、このデータには、初診から1年後における各患者の症状の進行を示す連続尺度の測定値も含まれています。値が大きいほど、症状の進行が進んでいます。糖尿病の症状の進行を予測するために、さまざまな種類のモデルをあてはめることにします。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Diabetes.jmp」を開きます。
2. [分析]>[予測モデル]>[モデルのスクリーニング]を選択します。
3. 「Y」を選択し、[Y, 目的変数]をクリックします。
4. 「年齢」から「グルコース」までを選択し、[X, 説明変数]をクリックします。
5. 「交差検証法の設定」セクションで、[K分割交差検証]チェックボックスをオンにします。
6. (オプション)「オプション」セクションで、「乱数シード値の設定」の横に「42920」と入力します。
例と同じ出力を得るには、この乱数シードを使用してください。
7. [OK]をクリックします。
8. 「モデルのスクリーニング:Y」の横にある赤い三角ボタンをクリックし、[追加のレポート]>[期間]を選択します。
図10.2 連続尺度の応答変数に対するモデルレポート
分割全体で平均された「検証 R2乗」によると、最も性能の良いモデルは「ニューラル ブースティング」です。ニューラル ブースティングの平均「検証 R2乗」は0.5503です。「期間」レポートからわかるように、「ニューラル ブースティング」のモデルは、計算時間も最長になっています。この例では、計算時間はたったの5秒ですが、大規模なデータセットを扱う場合やモデルが複雑な場合には、この情報が重要になることもあります。
ヒント: 個々のモデルの予測性能に関する指標を見るには、「検証」の横にあるグレーの開閉アイコンをクリックしてください。