广义线性建模的一个重要方面是模型中解释变量的选择。拟合优度统计量的变化通常用于评估解释变量的子集对特定模型的贡献。将偏差定义为可达到的最大对数似然与回归参数的最大似然估计值处的对数似然的差值的两倍。偏差通常用作拟合优度的测度。使用每个观测对应有参数的模型能够实现可达到的最大对数似然。表 12.4 列出响应变量的每个可用分布的偏差公式。
分布 |
偏差公式 |
---|---|
正态 |
|
二项 |
|
Poisson |
|
指数 |
Pearson 卡方统计量定义如下:
其中
yi 是第 i 个响应
μi 是相应的预测均值
V(μi) 是方差函数
wi 是第 i 个观测的已知权重
注意:若未指定权重,则对于所有观测 wi = 1。
用于变量选择的一个策略是拟合一系列模型。最开始是只有一个截距项的简单模型,然后在每个后续模型中多包含一个解释变量。您可以按两个相邻模型之间的偏差或拟合的对数似然差值测量增加的解释变量的重要性。渐近检验允许您评估增加项的统计显著性。
分布为非正态时,使用正态临界值来替代逆预测的 t 分布临界值。
偏差
学生化偏差
Pearson
学生化 Pearson
其中
(yi – μi) 是原始残差
若 (yi – μi) 为正数,则 sign(yi – μi) 为 1;若 (yi – μi) 为负数,则它为 -1。
di 是观测 i 对总偏差的贡献
φ 是离散参数
V(μi) 是方差函数
hi 是矩阵 We(1/2)X(X'WeX)-1X'We(1/2) 的第 i 个对角线元素,其中 We 是在计算期望信息矩阵时使用的权重矩阵。
有关残差和广义线性模型的详细信息,请参见 SAS Institute Inc.(2020a)。