この例では、「一般化回帰」手法を使って予測モデルを作成する方法を説明します。サンプルデータは、糖尿病患者442名の測定値で構成されています。関心のある応答は、ベースライン時点から1年後の症状進行を定量的に表したものです。症状の進行に関連すると思われる10個の変数も、ベースライン時点で測定されています。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Diabetes.jmp」を開きます。
2. [分析]>[モデルのあてはめ]を選択します。
3. 「列の選択」リストで「Y」を選択し、[Y]をクリックします。
4. 「年齢」から「グルコース」までを選択し、[マクロ]>[設定された次数まで]をクリックします。
これにより、2次までのすべての項がモデルに追加されます(「2」は、[次数]ボックスのデフォルト値です)。
5. 「列の選択」リストで「検証」を選択し、[検証]をクリックします。
6. 「手法」のリストから[一般化回帰]を選択します。
7. [実行]をクリックします。
「一般化回帰」レポートが開き、「モデルの比較」レポート、「モデルの設定」パネル、「標準最小2乗 (検証法: 検証列, 分布: 正規)」」レポートが表示されます。
「モデルの設定」パネルで、次のことを確認してください。
– 「モデルのあてはめ」ウィンドウの「分布」で[正規]を選択したので、「応答変数の分布」は[正規]になっています。
– デフォルトの「推定法」が[Lasso]になっています。
– 「モデルのあてはめ」ウィンドウで検証列を指定したので、「検証法」は[検証列]になっています。
8. [実行]をクリックします。
「Lasso (検証法: 検証列, 分布: 正規)」レポートが表示されます。「パラメータ推定値の経路」レポート(Figure 6.2)に、「パラメータ推定値」と「尺度化した負の対数尤度」が表示されます。「尺度化したパラメータ推定値の絶対値の和」が小さくなるほど、パラメータ推定値はより縮小されています。プロットの一番右の推定値は、最尤法による推定値になります。赤い縦線は、指定された検証法によって選択されたパラメータ推定値を表しています。この例で指定された検証法は、「検証」列に定義された値に基づき学習データと検証データに分割して、検証を行っています。
図6.2 「パラメータ推定値の経路」プロット
9. 「Lasso (検証法: 検証列, 分布: 正規)」の赤い三角ボタンをクリックし、[非ゼロの項を選択]を選択します。
「元の説明変数に対する推定値」レポート(Figure 6.3)と「パラメータ推定値の経路」プロットで非ゼロの項が強調表示されます。この時、データテーブルでも対応する列が選択されます。55個のパラメータ推定値のうち、ゼロでないものは11個だけです。なお、「元のデータに対するパラメータ推定値」レポートの最後の別表に表示されているのは、正規分布の標準偏差(シグマ、尺度パラメータ)です。なお、55個のパラメータ推定値がすべてFigure 6.3に表示されているわけではありません。
図6.3 「元の説明変数に対する推定値」レポート(一部)
予測式を保存するには、「Lasso (検証法: 検証列, 分布: 正規)」レポートの赤い三角ボタンをクリックし、[列の保存]>[予測式の保存]を選択します。