説明変数の個数が標本サイズよりも大きいようなデータセットは、「横長のデータ」(wide data)と呼ばれます。横長のデータでは、従来の回帰手法は現実的ではありません。「横長のデータ」に対しては、変数選択や罰則を伴う回帰分析を用いるのがいいでしょう。この例では、3つのモデルを比較してみます。これら3つのモデルでは、AICcがほぼ最小となっているとみなす度合いが異なっています。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Prostate Cancer.jmp」を開きます。
2. [分析]>[モデルのあてはめ]を選択します。
3. 「列の選択」リストで「ステータス」を選択し、[Y]をクリックします。
この応答列は名義尺度なので、「手法」が自動的に[名義ロジスティック]になり、「イベントを示す水準」オプションが表示されます。このオプションのデフォルト値は、データテーブルの「イベントを示す水準」列プロパティで指定されている[CCD]になります。
4. 「手法」のリストから[一般化回帰]を選択します。
「分布」リストに、自動的に[二項]分布が表示されます。Y変数が2水準で名義尺度である場合は、二項分布しか使用できません。
5. 「列の選択」リストから「Proteins」列グループを選択して、[追加]をクリックします。
列グループに含まれる667列が、モデルに追加されます。
6. [実行]をクリックします。
「一般化回帰」レポートが開き、「モデルの設定」パネルが表示されます。説明変数の個数が標本サイズよりも大きいので、ロジスティック回帰モデルのあてはめはデフォルトでは表示されません。
7. 「推定法」で[弾性ネット]を選択します。
8. 「詳細設定」の横にあるグレーの開閉アイコンをクリックします。
図7.8 詳細設定
9. 「最初に表示される結果」として[緑色ゾーンで最小]を選択します。
10. [実行]をクリックします。
図7.9 緑色ゾーンで最小のモデル
「パラメータ推定値の経路」に、AICcが最小であるモデルと同等と見なされるなかで最も小さいモデル(パラメータ数が最小のモデル)が表示されます。
11. 「弾性ネット (検証法: AICc, 分布: 二項)」の横にあるグレーの開閉アイコンをクリックします。
12. 「モデルの設定」の横にあるグレーの開閉アイコンをクリックします。
13. 「最初に表示される結果」として[最良]を選択します。
14. [実行]をクリックします。
図7.10 最良のモデル
「パラメータ推定値の経路」に、最良のモデル(AICcが最小となっているモデル)が表示されます。
15. 「弾性ネット (検証法: AICc, 分布: 二項)」の横にあるグレーの開閉アイコンをクリックします。
16. 「モデルの設定」の横にあるグレーの開閉アイコンをクリックします。
17. 「最初に表示される結果」として[緑色ゾーンで最大]を選択します。
18. [実行]をクリックします。
図7.11 緑色ゾーンで最大のモデル
「パラメータ推定値の経路」に、AICcが最小であるモデルと同等と見なされるなかで最も大きいモデル(パラメータ数が最大のモデル)が表示されます。
19. 「弾性ネット (検証法: AICc, 分布: 二項)」の横にあるグレーの開閉アイコンをクリックします。
図7.12 モデルの比較
「モデルの比較」レポートに3つのモデルが表示されます。「非ゼロのパラメータ」列で、各モデルのサイズを確認できます。モデルのパラメータ数が増えるにつれて、「一般化R2乗」の値が大きくなっています。これらのモデルは、すべて緑色ゾーン内にあります。緑色ゾーン内にあるモデルは、たとえAICcが異なっていても、それらの違いは小さく、AICc最小モデルとほぼ同等であるとみなしてもいいでしょう。