説明変数の個数が標本サイズよりも大きい場合、従来の回帰手法は現実的ではありません。このような場合は、変数選択を取り入れた回帰手法を使って、回帰モデルのあてはめを行います。この例では、変数選択の度合が異なる3つのモデルを比較します。これら3つのモデルは、検証プロットではどれも緑色ゾーン内にあるので、最良のモデルと同等であるという強い証拠があると言えるでしょう。
「Prostate Cancer.jmp」サンプルデータには、165人の男性から取得した血清のサンプルの結果が含まれています。このうち、約半数が前立腺ガンを患っています。血清のサンプルでは、667種類の蛋白質が測定されています。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Prostate Cancer.jmp」を開きます。
2. [分析]>[モデルのあてはめ]を選択します。
3. 「列の選択」リストで「ステータス」を選択し、[Y]をクリックします。
この応答列は名義尺度なので、「手法」が自動的に[名義ロジスティック]になり、「イベントを示す水準」オプションが表示されます。このオプションのデフォルト値は、データテーブルの「イベントを示す水準」列プロパティで指定されている[CCD]になります。
4. 「手法」のリストから[一般化回帰]を選択します。
「分布」リストに、自動的に[二項]分布が表示されます。Y変数が2水準で名義尺度である場合は、二項分布しか使用できません。
5. 「列の選択」リストから「Proteins」列グループを選択して、[追加]をクリックします。
列グループに含まれる667列が、モデルに追加されます。
6. [実行]をクリックします。
「一般化回帰」レポートが開き、「モデルの設定」パネルが表示されます。説明変数の個数が標本サイズよりも大きいので、ロジスティック回帰モデルのあてはめはデフォルトでは表示されません。
7. 「推定法」で[弾性ネット]を選択します。
8. 「詳細設定」の横にあるグレーの開閉アイコンをクリックします。
図7.8 詳細設定
9. 「最初に表示される結果」として[緑色ゾーンで最小]を選択します。
10. [実行]をクリックします。
図7.9 緑色ゾーンで最小のモデル
「パラメータ推定値の経路」に、AICcが最小であるモデルと同等と見なされるなかで最も小さいモデル(パラメータ数が最小のモデル)が表示されます。
11. 「弾性ネット (検証法: AICc, 分布: 二項)」の横にあるグレーの開閉アイコンをクリックします。
12. 「モデルの設定」の横にあるグレーの開閉アイコンをクリックします。
13. 「最初に表示される結果」として[最良]を選択します。
14. [実行]をクリックします。
図7.10 最良のモデル
「パラメータ推定値の経路」に、最良のモデル(AICcが最小となっているモデル)が表示されます。
15. 「弾性ネット (検証法: AICc, 分布: 二項)」の横にあるグレーの開閉アイコンをクリックします。
16. 「モデルの設定」の横にあるグレーの開閉アイコンをクリックします。
17. 「最初に表示される結果」として[緑色ゾーンで最大]を選択します。
18. [実行]をクリックします。
図7.11 緑色ゾーンで最大のモデル
「パラメータ推定値の経路」に、AICcが最小であるモデルと同等と見なされるなかで最も大きいモデル(パラメータ数が最大のモデル)が表示されます。
19. 「弾性ネット (検証法: AICc, 分布: 二項)」の横にあるグレーの開閉アイコンをクリックします。
図7.12 モデルの比較
「モデルの比較」レポートに3つのモデルが表示されます。「非ゼロのパラメータ」列で、各モデルのサイズを確認できます。モデルのパラメータ数が増えるにつれて、「一般化R2乗」の値が大きくなっています。これらのモデルは、すべて緑色ゾーン内にあるので、最良のモデルと同等であるという強い証拠があると言えるでしょう。