“估计方法”选项

拟合线性模型 > 广义回归模型 > “模型启动”控制面板 > “估计方法”选项

发布日期: 08/07/2020

“估计方法”选项

可用的估计方法可归入几下几类：无选择和无惩罚的方法、基于步骤的模型选择方法和惩罚回归方法。

“最大似然”、“标准最小二乘法”和“Logistic 回归”等方法拟合“拟合模型”启动窗口中指定的整个模型。不执行变量选择。这些模型可充当与其他方法比较时的基线。

注意：“最大似然”、“标准最小二乘法”和“Logistic 回归”中只有一个办法可用于给定报表。该估计方法的名称取决于“拟合模型”启动窗口中指定的分布。

“向后消除”、“向前选择”、“剪除的向前选择”、“最佳子集”和“两阶段向前选择”等方法均基于每一步进入或离开模型的变量。不过，它们不会对回归系数施加惩罚。

Dantzig 选择器、Lasso、弹性网络、岭和双 Lasso 等方法均为惩罚回归方法。它们收缩回归系数的大小并减小估计值方差，以便改进模型的预测能力。

注意：您的数据具有高度共线性时，自适应版本的 Lasso 和弹性网络可能无法提供好的解。这是因为自适应版本假定 MLE 提供好的估计值。这些情况下不推荐使用“自适应”选项。

在这些方法中使用两种罚值：

• l1 罚值，它惩罚回归系数的绝对值之和

• l2 罚值，它惩罚回归系数的平方和

默认的观测数据估计方法是 Lasso。若数据表包含实验设计脚本但不具有奇异性，则默认估计方法是“向前选择”，且启用“效应遗传”选项。若数据表包含实验设计脚本且设计矩阵中存在奇异性，则默认估计方法是“两阶段向前选择”，且启用“效应遗传”选项。

以下方法可用于模型拟合：

无选择和无惩罚的估计方法

最大似然

计算模型参数的最大似然估计值 (MLE)。不应用罚值。“最大似然”是唯一可用于分位数回归的估计方法。若在“拟合模型”启动窗口中指定了“验证”列，则拟合训练集的最大似然模型。默认情况下，只要满足以下条件，就会出现最大似然模型报表：

‒ 预测变量中不存在线性相依性。

‒ 观测数多于预测变量数。

‒ 预测变量数不超过 250 个。

“最大似然”选项为您提供了一种针对“广义回归”特质支持的响应分布构造经典模型的方式。此外，基于最大似然的模型可以作为模型比较的基线。

当指定的“分布”为“正态”或“二项”分布时，“最大似然”方法分别称为“标准最小二乘”或“Logistic 回归”。

标准最小二乘法

若指定了“正态”分布，则使用“标准最小二乘法”估计方法取代“最大似然”估计方法。默认报表为“标准最小二乘法”报表，该报表提供通常的标准最小二乘法结果。

Logistic 回归

若指定了“二项”分布，则使用“Logistic 回归”估计方法取代“最大似然”估计方法。默认报表为“Logistic 回归”报表。Logistic 结果同于最大似然结果。

基于步骤的估计方法

注意：当指定的“分布”为“多项式”时，基于步的估计方法不可用。

向后消除

使用向后消除回归计算参数估计值。所选的模型提供相对所选的验证方法而言是最好的解。向后消除最先将所有参数包括在模型中，然后每一步去除一个效应，直到得到仅含截距的模型。在每一步，都使用每个参数的 Wald 检验来确定删除哪个参数。

警告：“向后消除的解路径”的水平轴是其他估计方法中同一轴的相反轴。因此，当您在“向后消除的解路径”估计方法中从左向右移动时，将从模型中删除各个项而不是添加各个项。

向前选择

使用向前逐步回归计算参数估计值。在每一步，具有最显著得分检验的效应添加到模型中。所选的模型就是相对所选的验证方法而言提供最佳解的模型。

若存在交互作用并且启用了“效应遗传”选项，则通过以下方式处理复合效应。若在给定步骤具有最显著得分检验的效应是将要违反效应遗传的效应，则创建复合效应。复合效应包含具有最显著得分检验的效应以及满足效应遗传所需的任何其他不活跃效应。若复合效应具有最显著得分检验，则该复合效应中的所有效应都添加到模型中。

剪除向前选择

使用混合的向前和向后步骤计算参数估计值。算法从一个仅含截距的模型开始。第一步，具有最显著得分检验的效应添加到模型中。第一步之后，算法会在每一步考虑以下三种可能：

1. 从模型未包含的效应中，添加具有最显著得分检验的效应。

2. 从模型中的效应，删除具有最不显著 Wald 检验的效应。

3. 在一步中执行以上两个操作。

要选择每一步执行的操作，算法使用指定的验证方法。例如，若验证方法为 BIC，则算法选择生成最小 BIC 值的操作。若存在交互作用并且启用了“效应遗传”选项，则添加效应时会考虑复合效应，但删除效应时不会考虑复合效应。

当模型变得饱和时，算法尝试使用后退步骤来检查这是否会改进模型。算法中的最大步骤数是参数数目的 5 倍。所选的模型就是相对所选的验证方法而言提供最佳解的模型。

“剪除向前选择”是“逐步回归”特质中的“混合步骤”选项的替换选项。不过，它不使用 p 值来确定哪些变量进入或离开模型。

提示：不推荐对“剪除向前选择”估计方法使用“提前停止”选项。

最佳子集

通过在每一步中增加活跃效应数计算参数估计值。在每一步中，从所有可能的模型（具有由步骤号指定的一些效应）中选择所需模型。“解路径”图的水平轴上的值表示模型中活跃效应的数目。步骤 0 对应于仅含截距的模型。步骤 1 对应于仅包含一个活跃效应的模型中的最佳模型。步骤会继续增加，直到达到在“模型启动”报表的“高级控件”中指定的“最大效应数”的值。请参见高级控件。

提示：“最佳子集”估计方法要占用大量计算资源。不推荐用于大型问题。

两阶段向前选择

（仅当模型中有二阶或高阶效应时才可用。）在两个阶段中计算参数估计值。在第一阶段中，针对主效应运行向前逐步回归模型以确定保留在模型中的项。在第二阶段中，针对完全由第一阶段中选定的主效应构成的所有高阶效应运行向前逐步回归模型。该方法假定存在强效应遗传。

未保留在第一阶段中的项仍作为清零项显示在“参数估计值”报表中；不过，在第二阶段模型的拟合中会忽略这些项。在第一阶段中选定的项不强制进入第二阶段；这些项可供在第二阶段中选择。

惩罚估计方法

Dantzig 选择器

（仅当指定的分布为“正态”且未选定“无截距”选项时才可用。）通过使用线性规划法应用 l1 罚值来计算参数估计值。请参见 Candes and Tao (2007)。Dantzig 选择器适用于分析设计实验的结果。对于正交问题，Dantzig 选择器和 Lasso 提供相同结果。请参见Dantzig 选择器。

Lasso

通过应用 l1 罚值来计算参数估计值。由于 l1 罚值，一些系数可能估计为零。这样，变量选择作为拟合过程的一部分来执行。在普通 Lasso 中，所有系数被同等惩罚。

自适应 Lasso

通过惩罚回归系数的绝对值加权之和来计算参数估计值。l1 罚值权重由数据决定以保证 Oracle 性质 (Zou, 2006)。该选项使用 MLE 来衡量 l1 惩罚的权重。若预测变量数超过观测数或者预测变量之间存在严格的线性依赖关系，则无法计算 MLE。若无法计算回归参数的 MLE，则将广义逆矩阵解或岭解用于 l1 罚值权重。请参见自适应方法。

若预测变量高度相关，Lasso 和自适应 Lasso 选项通常选择更简化的模型。这些方法倾向于在一组相关的预测变量中只选择一个变量。高维数据倾向于具有高度相关的预测变量。对于这类数据，选择弹性网络可能比选择 Lasso 更好。请参见Lasso 回归。

弹性网络

通过同时应用 l1 罚值和 l2 罚值来计算参数估计值。l1 罚值确保执行变量选择。l2 罚值通过像岭方法那样收缩系数来改进预测能力。

自适应弹性网络

使用自适应 l1 罚值以及 l2 罚值来计算参数估计值。该选项使用 MLE 来衡量 l1 惩罚的权重。若预测变量数超过观测数或者预测变量之间存在严格的线性依赖关系，则无法计算 MLE。若无法计算回归参数的 MLE，则将广义逆矩阵解或岭解用于 l1 罚值权重。您可以在“高级控件”面板中设置“弹性网络 Alpha”的值。请参见自适应方法。

当预测变量高度相关时，与 Lasso 相比，弹性网络能提供更好的预测准确性。（实际上，岭和 Lasso 是弹性网络的特例。）从预测能力来看，自适应弹性网络的性能通常要比弹性网络和自适应 Lasso 的性能高。弹性网络可以选择有相关性的预测变量组并为涉及的预测变量分配合适的参数估计值。请参见弹性网络。

注意：若您选择弹性网络拟合并将“弹性网络 Alpha”设置为缺失，则算法按如下顺序计算拟合：Lasso、弹性网络和岭拟合。若拟合要用很长时间才完成，将显示一个进度条。当您点击“接受当前估计值”时，计算将停止，报告的参数估计值将对应于此时的最佳模型拟合。进度条指示算法拟合 Lasso、弹性网络和岭的时间。您可以使用该信息来决定何时点击“接受当前估计值”。

岭

使用岭回归计算参数估计值。岭回归是应用 l2 罚值的有偏回归方法，它不会生成为 0 的参数估计值。当您要保留模型中的所有预测变量时，它很有用。请参见岭回归。

双 Lasso

在两个阶段中计算参数估计值。在第一阶段中，拟合 Lasso 模型以确定要用在第二阶段中的项。在第二阶段中，使用第一阶段中的项拟合 Lasso 模型。显示的“解路径”结果和参数估计值报表均针对第二阶段拟合。若在第一阶段中没有任何变量进入模型，则不会出现第二阶段，报表中将显示第一阶段的结果。

双 Lasso 在观测数小于预测变量数时尤其有用。通过将变量选择和收缩运算细分为两个阶段，第二阶段中的 Lasso 就不太可能过度惩罚应包含在模型中的项。双 lasso 类似于松弛 lasso。松弛 lasso 在 Hastie et al.(2009, p. 91) 中说明。

自适应双 Lasso

在两个阶段中计算参数估计值。在第一阶段中，拟合自适应 Lasso 模型以确定要用在第二阶段中的项。在第二阶段中，使用第一阶段中的项拟合自适应 Lasso 模型。第二阶段仅考虑包含在第一阶段模型中的项，并使用基于第一阶段中的参数估计值的权重。您可以使用“高级控件”中的“自适应惩罚权重”选项选择计算权重的方法。请参见“高级控件”选项。显示的结果针对第二阶段拟合。若在第一阶段中没有任何变量进入模型，则不会出现第二阶段，报表中将显示第一阶段的结果。请参见自适应方法。

需要更多信息？有问题？从 JMP 用户社区得到解答 (community.jmp.com).