弹性网络和 Lasso 这类建模方法特别适合于大数据集,这些数据集中通常存在共线性问题。实际上,如今的数据集通常包含比观测值更多的变量。这种情形有时被称为 p > n 问题,其中 n 为观测数,p 为预测变量数。若使用传统建模方法,这类数据集需要进行变量选择。
•
|
•
|
•
|
•
|
•
|
•
|
•
|
弹性网络和 Lasso 是相对较新的方法(Tibshirani, 1996;Zou and Hastie, 2005)。这两种方法都对模型系数的大小有惩罚,从而导致连续收缩。收缩量由调节参数决定。最优收缩水平由几种验证方法中的一种决定。这两种方法都可以将系数收缩到零。这样就可将变量选择内置到建模过程中。弹性网络模型将 Lasso 和岭回归作为特例纳入。详细信息,请参见估计方法的统计详细信息。
•
|
•
|
“广义回归”特质还拟合自适应版本的 Lasso 和弹性网络。这些自适应版本尝试对实际活跃集中的变量执行惩罚的力度小于对未包含在实际活跃集中的变量的惩罚力度。实际活跃集是指模型中对响应有实际影响的一组项。开发 Lasso 和弹性网络的自适应版本是为了确保 oracle 性质得以保留。假如您拟合预测变量实际活跃集的模型,oracle 性质将确保您的估计值渐进地成为它们本来的值。更具体而言,您的模型可以正确标识应具有零系数的预测变量。您的估计值将收敛到仅使用实际活跃集建模时获得的那些值。请参见自适应方法。