モデルの適合度を検証する方法には、次のようなものがあります。
メモ: [分位点回帰]で使用できる検証法は、[なし]だけです。[最尤法]で使用できる検証法は、[なし]と[検証列]だけです。[Coxの比例ハザード]で使用できる検証法は、[BIC]、[AICc]、[なし]だけです。[Dantzig選択器]で使用できる検証法は、[BIC]と[AICc]だけです。
K分割
調整パラメータの各値で、次のステップが実行されます。
– データがk個に分割されます。
– そして、順番に、それらの分割されたk個のうちの1個が、検証セットとして使用されます。その際、(k - 1)個の部分がモデルの推定に使われます。(k - 1)個の部分から推定されたモデルに基づき、1個の部分から対数尤度を求めます。
– こうして、検証セットから、k個の対数尤度が求められます。そして、それらの平均が求められます。この平均が、検証のための対数尤度として使用されます。
調整パラメータの各値のうちで、上記の方法で検証セットから求められた対数尤度が最大となっているものが、最終的なモデルを求めるのに使われます。まず、調整パラメータが最適値となっているときに求められたk個のモデルそれぞれを、データセット全体にあてはめます。そして、その中から、対数尤度が最も大きいものが最終的なモデルに選ばれます。診断プロットで使われれるデータは、この最終的なモデルで使われた分割に基づいて、各セットが「学習セット」と「検証セット」に分類されます。そして、その「学習セット」と「検証セット」が、診断プロットで使用されます。
保留
指定された割合のデータを検証セットに使用し、残りのデータをモデルの推定に使用します。検証セットの対数尤度が最大となっている結果が最終的な解となります。この手法は大規模なデータセットに有効です。学習セットおよび検証セットを作成するための無作為選択の方法としては、モデルの因子に対する層化抽出を使用しています。この方法は、単純な無作為抽出よりもバランスがよいという特徴があります。
1つ取って置き法
1つ取って置きの交差検証法(LOOCV; Leave-One-Out Cross Validation)を実行します。これは[K分割]と同じですが、分割の数が行数に等しくなっています。このオプションは、中規模または大規模のデータセットには適しません。データがそれほど大きくなくても、この検証法は処理時間が長くなる可能性があります。診断プロットで使用される学習セットおよび(1行の)検証セットは、K分割交差検証法の場合と同様に決定されます。
BIC
ベイズ情報量規準(BIC)を最小にするパラメータ推定値を選択します。尤度・AICc・BICを参照してください。
AICc
修正済み赤池情報量規準(AICc)を最小にするパラメータ推定値を選択します。AICcは、デフォルトの検証法です。尤度・AICc・BICを参照してください。
メモ: AICcは、パラメータの個数が標本サイズに近づくか、または標本サイズを超えた場合、計算できません。
ERIC
拡張正則化情報量規準(ERIC; Extended Regularized Information Criterion)を最小にするパラメータ推定値を選択します。モデルの適合度に関する情報を参照してください。応答変数の確率分布が指数型分布族に属するものであり、かつ推定法がLassoもしくは適応型Lassoである場合にのみ使用できます。
なし
検証を使用しません。[最尤法]および[分位点回帰]を選択した場合にのみ使用できます。
検証列
「モデルのあてはめ」ウィンドウで「検証」列に指定された列を使用します。検証セットの対数尤度が最大になるものが最終的な解となります。このオプションは、推定法として[Dantzig選択器]を指定した場合、もしくは、分布として[分位点回帰]・[Cox比例ハザード]を指定した場合には使用できません。