“广义回归”特质采用正则或惩罚回归方法。这类方法通过向零收缩模型系数来尝试拟合更好的模型。得到的估计值有偏倚。这种偏倚增大可能导致预测方差减小,从而与非惩罚模型相比会降低总预测误差。其中的两种方法(弹性网络和 Lasso)会将变量选择作为建模过程的一部分。
弹性网络和 Lasso 这类建模方法特别适用于大数据集,这些数据集中通常存在共线性问题。此外,如今的数据集通常包含比观测值更多的变量。这种情形有时被称为 p > n 问题,其中 n 为观测数,p 为预测变量数。若使用传统建模方法,这类数据集需要进行变量选择。
弹性网络和 Lasso 也可用于相关性不强的小数据集(包括设计实验)。可利用它们来构建预测模型,或者选择用于模型简化或未来研究的变量。
该特质提供以下几类建模方法:
• 最大似然
• 基于步骤的估计
• 惩罚回归
弹性网络和 Lasso 是相对较新的方法(Tibshirani 1996;Zou and Hastie 2005)。这两种方法都对模型系数的大小有惩罚,从而导致连续收缩。收缩量由调节参数决定。最优收缩水平由几种验证方法中的一种决定。这两种方法都可以将系数收缩到零。这样就可将变量选择内置到建模过程中。弹性网络模型将 Lasso 和岭回归作为特例纳入。请参见估计方法的统计详细信息。
• 最大似然方法是经典方法。它提供用于与其他方法进行比较的基线,并且它是最适用于假设检验等传统推理方法的位置。
• 向前选择是一种逐步回归方法。在向前选择中,项进入模型。添加最为显著的项,直到所有项都添加到模型中,或不再有任何自由度。
• Lasso 有两个缺点。当几个变量高度相关时,它倾向于只从该组中选择一个变量。当变量数 p 超过观测数 n 时,Lasso 最多选择 n 个预测变量。
• 另一方面,弹性网络倾向于从相关的组中选择所有变量,拟合合适的系数。当 p > n 时,它还可选择 n 个以上的预测变量。
• 岭回归是最早提出的惩罚回归方法之一(Hoerl 1962;Hoerl and Kennard 1970)。岭回归不将系数收缩到零,因此它不执行变量选择。
• “双 Lasso”试图通过使用初始 Lasso 模型执行变量选择来分离选择步骤和收缩步骤。初始模型中选定的变量随后会用作第二个 Lasso 模型的输入变量。
• “两阶段向前选择”执行两个阶段的向前逐步回归。它会在第一个阶段中对主效应执行变量选择。然后,在第二个阶段中允许高阶效应进入该模型。
“广义回归”特质还拟合自适应版本的 Lasso 和弹性网络。这些自适应版本尝试对实际活跃集中的变量执行惩罚的力度小于对未包含在实际活跃集中的变量的惩罚力度。实际活跃集是指模型中对响应有实际影响的一组项。开发 Lasso 和弹性网络的自适应版本是为了确保 oracle 性质得以保留。假如您拟合预测变量实际活跃集的模型,oracle 性质将确保以下内容:您的估计值渐进地成为它们本来的值。更具体而言,您的模型可以正确标识应具有零系数的预测变量。您的估计值将收敛到仅使用实际活跃集建模时获得的那些值。请参见自适应方法。
“广义回归”特质允许您为响应变量指定各种分布。这些分布拟合包括正态、Cauchy、指数、gamma、Weibull、对数正态、beta、二项、beta 二项、Poisson、负二项、零泛滥二项、零泛滥 beta 二项、零泛滥 Poisson、零泛滥负二项和零泛滥 gamma。这种灵活性使您可以拟合分类和计数响应以及连续响应,特别是拟合向右偏斜的连续响应。您还可以拟合分位数回归和 Cox 比例危险模型。对于某些分布,您可以拟合删失数据的模型。该特质提供了各种用于模型选择的验证准则并支持训练列、验证列和测试列。请参见分布。