一般化線形モデルでも、説明変数の選択は重要です。該当する説明変数がどれだけモデルに貢献しているかは、通常、適合度統計量の変化量によって評価できます。デビアンスは、「データが到達可能な最大対数尤度」と「回帰パラメータの最尤推定値における対数尤度」の差に2を掛けたものです。デビアンスは、適合度の統計量としてよく使われます。「データが到達可能な最大対数尤度」は、データの1行ずつに1つのパラメータがあるモデルで達成されます。表12.4は、応答変数に対して使用できる分布のデビアンスの計算式をまとめたものです。
分布 |
デビアンスの計算式 |
---|---|
正規 |
|
二項 |
|
Poisson |
|
指数 |
また、デビアンスと同じように適合度を示すPearsonのカイ2乗適合度統計量は、次のように定義されます。
ここで
yiは、i番目の応答
miは、対応する平均の予測値
V(mi)は、分散関数
wiは、第i行目のデータに対する既知の重み
メモ: 重みが指定されなかった場合は、すべての観測(オブザベーション)でwi = 1とされます。
変数選択の方法として、一連のモデルを順にあてはめていく方法があります。まず切片項しかないモデルをあてはめ、それから1つずつ説明変数を増やしていきます。この作業において、デビアンスもしくは対数尤度を比較すれば、追加した各説明変数の有意性を測定することができます。各説明変数に対して漸近検定が計算されるため、追加した説明変数の統計的有意性もわかります。
なお、「一般化線形モデル」プラットフォームの逆推定の計算では、応答の分布として正規分布以外のものを指定した場合は、t分布ではなく、正規分布の分位点を用いています。
デビアンス残差
スチューデント化デビアンス残差
Pearson残差
スチューデント化Pearson残差
ここで
(yi – mi)は、生の残差
sign(yi – mi)は、(yi – mi)が正の場合は1、(yi – mi)が負の場合は-1
diは、デビアンス全体に対するi番目の観測値の寄与
fは、過分散パラメータ
V(mi)は、分散関数
hiは、行列We(1/2)X(X'WeX)-1X'We(1/2)の第i対角要素。ここで、Weは期待情報量行列の計算に使われた重みの行列。
残差と一般化線形モデルの詳細については、SAS Institute Inc.(2020a)の「The GENMOD Procedure」章を参照してください。