使用“逐步回归控制”面板可限制回归变量效应概率,确定选择效应的方法,开始或停止选择过程以及运行模型。“执行”按钮下会显示一条注释,指示您是否有排除或缺失行。
图 5.3 “逐步回归控制”面板
“停止规则”确定选择哪个模型。对于除“P 值阈值”之外的所有停止规则,只允许“前进”和“后退”方向。使用验证的停止规则只有“最大验证 R 方”和“最大 K 重 R 方”。请参见逐步回归中的验证选项。
p 值阈值
使用 p 值(显著性水平)使效应进入模型和从模型中删除效应。选择“P 值阈值”时将显示其他两个选项:
进入的概率
指定在前进步中效应必须进入模型的最大 p 值。
剔除的概率
指定在后退步中必须从模型删除效应的最小 p 值。
最小 AICc
使用最小校正 Akaike 信息准则来选择最佳模型。有关更多详细信息,请参见似然、AICc 和 BIC。
最小 BIC
使用最小 Bayesian 信息准则来选择最佳模型。有关更多详细信息,请参见似然、AICc 和 BIC。
最大验证 R 方
使用验证集中的最大 R 方来选择最佳模型。仅当您使用具有两个或三个非重复值的验证列时,该选项才可用。有关验证的详细信息,请参见逐步回归中具有两个或三个值的验证集。
最大 K 重 R 方
使用 K 重交叉验证中的最大 R 方来选择最佳模型。您可以通过从“逐步”红色小三角菜单中选择该选项来访问“最大 K 重 R 方”停止规则。JMP Pro 用户可使用具有四个或更多值的验证集来访问该选项。选择该选项时,系统要求您指定折数。有关验证的详细信息,请参见逐步回归中的 K 重交叉验证。
您选择的方向控制效应如何进入模型和从模型中剔除。选择以下选项之一:
前进
使 p 值最小的项进入。若选择了“p 值阈值”停止规则,该项在进入的概率所指定的水平下必须是显著的。请参见向前选择示例。
后退
删除 p 值最大的项。若选择了“p 值阈值”停止规则,该项在剔除的概率所指定的水平下不能是显著的。请参见向后选择示例。
注意:将“后退”选作“方向”时,您必须在点击“执行”或“步进”之前点击“全部进入”。
混合
仅当选择了“p 值停止规则”时才可用。它使前进步和后退步交替出现。它包含满足进入的概率的最显著的项,删除满足剔除的概率的最不显著的项。它继续删除项,直到其余项是显著的,然后变为前进方向。
使用“执行”、“停止”和“步进”按钮,您可以控制如何使项进入模型或从模型中删除项。
注意:所有停止规则仅考虑由 p 值进入(“前进”方向)或删除(“后退”方向)定义的模型。停止规则不考虑所有可能的模型。
执行
自动执行进入(“前进”方向)或删除(“后退”方向)项的过程。在拟合的模型中,基于所选停止规则认定是最佳的模型最后列出。除了“p 值阈值”停止规则外,选择为“最佳”的模型是在停止规则统计量行为中忽略局部下沉的模型。“最佳”模型选择右侧的按钮选择该模型提供给“构建模型”和“运行模型”选项,但是您可以自由更改该选择。
‒ 对于“p 值阈值”,最佳模型基于“进入的概率”和“剔除的概率”准则。请参见p 值阈值。
‒ 对于“最小 AICc”和“最小 BIC”,继续执行自动拟合,直到找到最佳模型。最佳模型是具有最小 AICc 或 BIC 的模型,该模型可能分别后跟具有更大 AICc 或 BIC 值的多达 10 个模型。该模型通过“参数”列中的“最佳”和“操作”列中的“特定”这两项来指定。
‒ 对于“最大验证 R 方”(仅限 JMP Pro)和“最大 K 重 R 方”,继续执行自动拟合,直到找到最佳模型。最佳模型是具有“最大验证 R 方”或“最大 K 重 R 方”值的模型,该模型可能分别后跟具有更小“验证 R 方”或“K 重 R 方”值的 10 个模型。该模型通过“参数”列中的“最佳”和“操作”列中的“特定”这两项来指定。
停止
停止由“执行”按钮开始的自动选择过程。
步进
在“前进”方向中逐个进入项或在“后退”方向中逐个删除项。在任何点,您均可以通过点击“步进历史记录”报表中的右侧按钮来选择模型。模型项的选择将在“当前估计值”报表中更新。这是您一点击“构建模型”或“运行模型”即使用的模型。
注意:仅当您的模型包含相关项时才显示。当您具有名义型或有序型变量时,会构造相关项并且它们显示在“当前估计值”表中。
使用“规则”来更改模型中有项的层次结构时应用的规则。在以下情况下会出现层次结构:
• 一个变量是另一变量的成分时出现层次结构。例如,若您的模型包含变量 A、B 和 A*B,则 A 和 B 在层次结构中是 A*B 的前项。
• 包含名义型或有序型变量时也出现层次结构。在树结构中位于另一项之上的项是前项。请参见分层项的构造。
选择以下选项之一:
合并
在考虑输入具有前项的项时,计算两个不同检验的 p 值。第一个 p 值 p1 的计算方式是:将该项与其前项分组在一起并以联合 F 检验计算该组进入的显著性概率。第二个 p 值 p2 是在前项已经进入模型后,检验该项进入的显著性概率的结果。具有前项的项进入的最终显著性概率为 max(p1, p2)。
提示:“合并”规则避免包括非显著交互作用项,其前项可能具有特别强烈的效应。在这种情况下,强主效应可能会使该组进入的显著性概率 p1 非常小。不过,第二个检验发现交互作用自身不显著。最终,p2 很大,用作最终的进入显著性概率。
警告:具有前项的项的自由度值取决于两个进入显著性概率中哪一个比较大。用于最终的进入显著性概率的检验确定“当前估计值”表中的自由度 nDF。因此,若使用 p1,则 nDF 为联合检验的组中的项数;若使用 p2,则 nDF 等于 1。
“合并”选项是默认规则。请参见具有交叉、交互作用或多项式项的模型。
限制
限制具有前项的项,使它们在其前项进入前无法进入。请参见具有名义型和有序型效应的模型和分层项的限制规则的示例。
无规则
使选择例程能自由选择项,无论该例程是否破坏层次结构。
整体效应
当涉及该效应的项显著时,仅使整体效应进入。仅当具有两个以上水平的分类变量作为可能的模型效应进入时该规则才适用。请参见规则。
“逐步控制”面板包含以下按钮:
执行
将选择过程自动执行完成。
停止
停止选择过程。
步进
一次使选择过程增加一步。
箭头按钮
在选择过程中前进和后退一步。
全部进入
使所有未锁定的项进入模型。
全部删除
从模型中删除所有未锁定的项。
构建模型
根据当前在“当前估计值”表中显示的模型为“拟合模型”窗口创建模型。有名义型或有序型项时,构建模型将创建临时变换列以包含模型所需的项。
运行模型
运行当前在“当前估计值”表中显示的模型。有名义型或有序型项时,运行模型将创建临时变换列以包含模型所需的项。
以下统计量显示在“逐步回归控制”面板下方。
误差平方和
当前模型的误差平方和。
误差自由度
当前模型的误差自由度。
RMSE
当前模型的均方根误差(残差)。
R 方
响应中可归因于模型中的项而非随机误差的变异比例。
调整 R 方
通过在计算中使用自由度,调整 R2 使该值在带有不同数量参数的各个模型之间更具可比性。在逐步过程中调整 R2 很有用,因为您正在查看很多不同模型并且想要根据模型中的项数进行调整。
Cp
用于选择模型的 Mallow Cp 准则。它是误差平方和的替代测度,可以按以下方式定义:
其中 s2 是完全模型的 MSE,SSEp 是具有 p 个变量(包括截距)的模型的误差平方和。请注意,p 是 x 变量数+1。若使用 p 对 Cp 绘图,Mallows (1973) 建议选择 Cp 首次接近 p 的模型。
p
模型中的参数数目,包括截距。
AICc
校正 Akaike 信息准则。有关更多详细信息,请参见似然、AICc 和 BIC。
BIC
Bayesian 信息准则。有关更多详细信息,请参见似然、AICc 和 BIC。
在向前选择中,项进入模型并添加最显著的项,直到所有项都显著后结束。
1. 完成使用逐步回归的示例中的步骤。
请注意方向的默认选择是“前进”。
2. 点击步进。
在图 5.4 中,您可以看到在执行一步后,最显著的项跑步时间进入模型。
3. 点击执行。
在图 5.5 中,显示已添加除休息时脉搏和体重之外的所有项。
图 5.4 向前选择一步后的“当前估计值”表
图 5.5 向前选择三步后的“当前估计值”表
在向后选择中,所有项进入模型,之后删除最不显著的项,直到剩余的所有项都显著后结束。
1. 完成使用逐步回归的示例中的步骤。
2. 点击全部进入。
图 5.6 所有效应都进入模型
3. 对于方向,选择“后退”。
4. 点击步进两次。
第一个后退步删除休息时脉搏,第二个后退步删除体重。
图 5.7 已删除项的“当前估计值”和“步进历史记录”表
图 5.7 中所示的“当前估计值”和“步进历史记录”表汇总了后退逐步选择过程。请注意“步进历史记录”表中第三步的 BIC 值 156.362。若再次点击“步进”从模型中删除另一个参数,BIC 值将增至 159.984。出于此原因,您可以选择步骤 3 模型。这也是按下“执行”按钮后生成的模型。