この例では、「Liver Cancer.jmp」サンプルデータの二値応答「重症」に対する予測モデルを作成します。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Liver Cancer.jmp」を開きます。
2. [分析]>[モデルのあてはめ]を選択します。
3. 「列の選択」リストで「重症」を選択し、[Y]をクリックします。
4. 「BMI」から「黄疸」までを選択し、[マクロ]>[設定された次数まで]をクリックします。
これにより、2次までのすべての項がモデルに追加されます(「2」は、[次数]ボックスのデフォルト値です)。
5. 「手法」のリストから[一般化回帰]を選択します。
「分布」リストに、自動的に[二項]分布が表示されます。Y変数が2水準で名義尺度である場合は、二項分布しか使用できません。
6. [実行]をクリックします。
「一般化回帰」レポートが開き、「モデルの比較」レポート、「モデルの設定」パネル、「ロジスティック回帰」レポートが表示されます。デフォルトの「推定法」はLassoになっています。
7. 「推定法」で[弾性ネット]を選択します。
8. [適応型]チェックボックスを選択します。
9. [実行]をクリックします。
「適応型弾性ネット (検証法: AICc, 分布: 二項)」レポートが表示されます。「パラメータ推定値の経路」は図7.3のようになります。
図7.3 「パラメータ推定値の経路」プロット
パラメータ推定値がゼロではない項の経路が青色で表示されています。最適なパラメータ値は、最尤推定値からはかなり離れた、縮小された値になっています。右側の「検証」プロットを見ると、いくつかのモデルが最良のモデルと同程度の適合度であるようです。これらのモデルを見るには、黒い折れ線が緑色のゾーンにある範囲で、赤い縦線をドラッグします。
10. 「適応型弾性ネット (検証法: AICc, 分布: 二項)」の赤い三角ボタンをクリックし、[ゼロの項を選択]オプションを選択します。
パラメータ推定値がゼロである16個の項が、「元の説明変数に対する推定値」レポートで強調表示されます。「効果の検定」レポートでは、これらの項には「削除」と記されています。
「効果の検定」レポートを見ると、5%の有意水準において有意な効果はないこともわかります。ただし、「時間*マーカー」の交互作用のp値は0.0626と小さく、また、「時間」効果のp値も0.1458という小さな値です。
11. 「適応型弾性ネット (検証法: AICc, 分布: 二項)」の赤い三角ボタンをクリックし、[プロファイル]>[プロファイル]を選択します。
図7.4 時間値が小さいときの、P(重症=High)のプロファイル
予測プロファイルで、「時間」と「時間*マーカー」の交互作用が「重症」にどのような影響を与えるかを調べます。
メモ: 説明変数の「肝炎」は、アクティブな項(パラメータ推定値がゼロではない項)のいずれにも含まれないため、プロファイルに表示されません。「マーカー」と「黄疸」は、主効果としてはアクティブでないものの、アクティブな交互作用項に含まれているため、プロファイルに表示されます。
12. 「時間」の赤い点線を左から右に動かすと、「マーカー」との交互作用が確認できます(図7.4および図7.5)。「時間」値が小さい患者の場合、「マーカー」は「重症」にほとんど影響を与えません。しかし、時間が長い患者の場合は、「マーカー」が重要です。時間が長くなると、マーカーが「0」の方が、「重症」がHighになる確率が低いことがわかります。
図7.5 時間値を大きくしたときの、P(重症=High)のプロファイル