注: このレポートは、[最尤度]以外のすべての「推定法」と、[分位点回帰]以外のすべての分布で表示されます。
「パラメータ推定値の経路」レポートには、2つのプロットが含まれます。
• 左側のプロットは、パラメータの推定値を示します。
• 右側のプロットは、選択した検証法に従って検証に用いた統計量を示します。
どちらのプロットも、横軸は、尺度化したパラメータ推定値の絶対値の和です。これは、パラメータ推定値のl1ノルムです(なお、切片、過分散パラメータ、およびゼロ強調パラメータは、このl1ノルムの計算からは除外されています。)次の点に注意してください。
• l1ノルムが大きい推定値は、最尤推定値に近くなります。
• l1ノルムが小さい推定値は、大きな罰則が課されています。
• 調整パラメータに大きな値のときほどl1ノルムの値は小さくなります。
どちらのプロットでも、「元の説明変数に対する推定値」レポートに表示された解におけるl1ノルムの1つに対して赤い縦の実線が引かれています。いずれかのプロットにおいても、赤い縦線の上部にある矢印をドラッグすると、ペナルティの値が変更され、別のペナルティに対応したモデルの結果に変更されます。検証プロットでは、任意の場所をクリックしてもモデルは変更されます。これらの操作を行うと、レポートのすべての結果が、現在選択されているモデルに合わせて更新されます。この時、縦の点線は、検証結果が最良のモデルに置かれたままです。検証プロットの横の[解をリセット]ボタンをクリックすると、赤い垂直線が最初の位置に戻り、最初に表示された結果に戻ります。一部の検証法では、検証プロットに同等なモデルを特定するゾーンが表示されます。同等なモデルのゾーンを参照してください。
図6.5 「Diabetes.jmp」で[Lasso]推定法と[AICc]検証法を選択したときの「パラメータ推定値の経路」
経路プロットの詳細については、「パラメータ推定値の経路」プロットを参照してください。検証プロットの詳細については、検証プロットを参照してください。
「パラメータ推定値の経路」レポートにある左側のプロットで経路の折れ線を選択すると、「パラメータ推定値」レポート内でも該当する項が強調表示されます。この時、データテーブルでも、対応する列が選択されます。また、パラメータ推定値の表で行を選択しても、経路プロットで対応する経路が強調表示されます。なお、プロットで複数の経路を選択する場合や表で複数の行を選択する場合は、Shiftキーを押しながら選択してください。
経路プロットの縦軸は、パラメータ推定値になっています。このパラメータ推定値は、尺度化されたものであり、標準化された説明変数に対する回帰係数です(標準化した説明変数に対する推定値を参照)。
説明変数の個数が標本サイズより少ない場合、多くの場合においては、「パラメータ推定値の経路」プロットには、ゼロ(罰則が無限大のときの推定値)から最尤推定値(罰則がまったくないときの推定値)までの全範囲が描かれます。しかし、その全範囲が描かれないときもあります。それは、最尤推定値から次のグリッド点における結果と、最尤推定値との結果が大きく違いすぎて、それまでの経路における推定値が分かりづらくなる場合です。そのようなときは、「パラメータ推定値の経路」プロットは調整され、最尤推定値の次のグリッド点における結果までしか表示しません。
「パラメータ推定値の経路」のいずれかのプロットで三角印を動かすと解が変更できますが、それらの解には内部でID番号が割り当てられます。三角印を動かして最初に表示されたものとは別の解を選択した後、[スクリプトの保存]オプションでスクリプトを保存すると、そのスクリプトには解のID番号も保存されています。この解のID番号は、Set Solution ID( N )コマンドというコマンドで保存されます。このように解のID番号が保存されるので、保存したスクリプトを実行すると、選択した解を再現できます。
検証プロットは、「尺度化したパラメータ推定値の絶対値の和」(これは調整パラメータを特定の値に設定したときの推定結果から計算されます)に対してモデルの適合度を表した統計量をプロットしたものです。プロットされる適合度統計量は、選択した「検証法」によって異なります。表6.3は、各検証法でプロットされる統計量のリストです。どの検証法でも、値は小さい方が良いモデルを示します。[K分割]と[1つ取って置き法]と、値が4つ以上ある検証列の場合には、「尺度化した負の対数尤度」を、すべての分割で平均した値がプロットされます。
表6.3の[尺度化した負の対数尤度](scaled –log likelihood)とは、負の対数尤度を標本サイズで割ったものです。
検証法 | 検証に用いる統計量 | 調整パラメータの領域 |
---|---|---|
K分割 | 尺度化した負の対数尤度をk個の検証セットのそれぞれから計算し、それを平均したもの | 2つ |
保留 | 尺度化した負の対数尤度 | なし |
1つ取って置き法 | 尺度化した負の対数尤度を各データ行から計算し、それを平均したもの | 2つ |
BIC | 学習セットのBIC | 2つ |
AICc | 学習セットのAICc | 2つ |
ERIC | 学習セットのERIC | 2つ |
「検証」列の値が2つまたは3つの場合 | 尺度化した負の対数尤度 | なし |
「検証」列の値(K)が4以上の場合 | 尺度化した負の対数尤度をk個の検証セットのそれぞれから計算し、それを平均したもの | 2つ |
最良のモデルを選んだ場合、その選択には不確定性があります。最良ではないモデルであっても、適合度がほぼ同等であれば、有益な情報が含まれているでしょう。[AICc]、[BIC]、[K分割]、[1つ取って置き法]の検証法と、値が4つ以上ある検証列の場合、「検証」プロットには、検討の余地があるモデルを特定するためのゾーンが表示されます。ゾーンの外にあるモデルは、推奨されないモデルです。Burnham and Anderson(2004)とBurnham et al.(2011)を参照してください。
ゾーンは、検証に用いた統計量に対する範囲を示します。ゾーンは、緑色や黄色に塗られています。検証に用いた統計量がゾーン内にあるとき、そのモデルはそのゾーン内に位置することを意味します。赤い縦の実線をドラッグすることにより、ゾーン内において解がどのように変化するかを調べることができます。現在のモデルを示す縦線を参照してください。
図6.6 は、「Diabetes.jmp」の検証プロットにおける2つのゾーンです(見やすくするために縦軸方向を拡大しています)。
図6.6 「Diabetes.jmp」で[Lasso]推定法と[AICc]検証法を選択したときの検証プロット
これらの検証法では、以下のような2つのゾーンによってモデルが適切であろう領域が表されています。ここでは、最良のモデルにおける[BIC]・[AICc]・[ERIC]の値をVbestとします。
• 緑色のゾーンにあるモデルは、最良のモデルと同等であるという強い証拠があります。緑色のゾーンは、[Vbest, Vbest+4]の区間です。
• 黄色のゾーンにあるモデルは、最良のモデルと同等であるという弱い証拠があります。黄色のゾーンは、[Vbest+4, Vbest+10]の区間です。
これらの検証法では、以下の2つのゾーンによってモデルが適切であろう領域が表されています。これらの検証法では、各検証セットに対し、尺度化した負の対数尤度が計算されます。それらの標準誤差をLSEとします。また、最良のモデルにおける尺度化した負の対数尤度をLbestとします。
• 緑色のゾーンにあるモデルは、最良のモデルと同等であるという強い証拠があります。緑色のゾーンは、[Lbest, Lbest+LSE]の区間です。
• 黄色のゾーンにあるモデルは、最良のモデルと同等であるという弱い証拠があります。黄色のゾーンは、[Lbest+LSE, Lbest+2.5*LSE]です。