拟合线性模型 > 逐步回归模型 > 使用验证 > 具有两个或三个值的验证集
发布日期: 04/13/2021

具有两个或三个值的验证集

Image shown here若您指定具有两个或三个值的“验证”列,“逐步”基于训练集拟合模型。为验证集和测试集报告模型拟合统计量。有关如何定义这些统计量的详细信息,请参见验证集和测试集统计量定义

若响应是连续的,以下统计量显示在“逐步回归控制”面板中:

R 方验证(也显示在“步进历史记录”报表中)

RMSE 验证

R 方检验(若有测试集)

RMSE 检验(若有测试集)

若响应是二值名义型或有序型,以下统计量显示在“逐步回归控制”面板中:

R 方验证(也显示在“步进历史记录”报表中)

验证平均对数误差

R 方检验(若有测试集)

平均对数误差检验(若有测试集)

最大验证 R 方

若您在“拟合模型”窗口中指定具有两个或三个值的验证列,则“停止规则”默认为“最大验证 R 方”。该规则尝试找到使验证集的 R 方统计量最大的模型。该规则可在“方向”设置为“前进”或“后退”时应用。

注意:“最大验证 R 方”仅考虑由 p 值进入(“前进”方向)或删除(“后退”方向)定义的模型。它不考虑所有可能模型。

您可以使用“步进”按钮在“前进”方向中使项逐个进入,也可以在“后退”方向中逐个删除项。在任何点,您都可以通过点击“步进历史记录”报表中“R 方验证”右侧的按钮来选择模型。模型项的选择将在“当前估计值”报表中更新。这是您一点击“构建模型”或“运行模型”即使用的模型。

前进方向

在“前进”方向中,“逐步”基于下一个最小的 p 值添加项来构造逐次模型。

若您点击“执行”而非“步进”,则自动执行项进入过程。在拟合的模型中,被视为最佳的模型最后列出。通过忽略“R 方验证”中的局部下沉来获得该模型。具体而言,它是具有最大“R 方验证”的模型,后面可能跟着具有更小“R 方验证”值的 10 个模型。该模型通过“参数”列中的“最佳”和“操作”列中的“特定”这两项来指定。使用“R 方验证”右侧的按钮选择这个“最佳”模型,尽管您可以自由更改该选择。

后退方向

在“后退”方向中,“逐步”基于下一个最大的 p 值删除项来构造逐次模型。

要使用“后退”方向,您必须首先点击“全部进入”使所有项进入模型。“后退”方向以类似于“前进”方向的方式运行。若您点击“执行”而非“步进”,则自动执行项删除过程。指定为“最佳”的模型是具有最大“R 方验证”的模型,它后面可能跟着具有更小“R 方验证”值的 10 个模型。

验证集和测试集统计量定义

“R 方验证”和“RMSE 验证”在本节中定义。以完全类似的方式为测试集计算“R 方检验”和“RMSE 检验”。

连续响应

R 方验证

按以下方式计算验证集的 R 方测度:

对于验证集中的每个观测,计算预测误差。这是实际响应与训练集模型预测的响应之间的差值。

计算预测误差的平方和以得到 SSE验证

对验证集中的实际响应与它们的均值的差值求平方和。这是 SST验证

R 方验证计算如下:

Equation shown here

注意:R 方验证有可能为负值。

RMSE 验证

验证集的均方预测误差的平方根。它按以下方式计算:

对于验证集中的每个观测,计算预测误差。这是实际响应与训练集模型预测的响应之间的差值。

计算预测误差的平方和以得到 SSE验证

n验证 表示验证集中的观测数。

RMSE 验证为:

Equation shown here

注意:在“拟合最小二乘法交叉验证”报表中,“验证集”和“测试集”的 RASE(平均平方根误差)列中的条目就是“逐步”报表中计算的“RMSE 验证”和“RMSE 检验”值。请参见RASE

二值名义型或有序型响应

R 方验证

按以下方式计算验证集的“熵 R 方”测度(也称为 McFadden R2):

使用训练集拟合模型。

获得所有观测的预测概率。

使用基于训练集模型的预测概率,为验证集中的观测计算模型的似然。该量被称为似然_完全验证

使用验证集中的数据,计算简化模型(无预测变量)的似然。该量被称为似然_简化验证

R 方验证计算如下:

Equation shown here

注意:R 方验证有可能为负值。

验证平均对数误差

按以下方式计算验证集的平均对数误差:

对于验证集中的每个观测值,计算由模型根据训练集确定的其预测概率的对数。

将这些对数求和,除以验证集中的观测数,然后对所得值求负数。

提示:验证平均对数误差的值越小越好。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).