发布日期: 08/07/2020

验证

若对一棵树进行充分的拆分,分割可能会过度拟合数据。发生这种情况时,模型可以很好地预测用于构建模型的数据,但不能很好地预测将来观测。验证是使用数据集的一部分估计模型参数并使用另一部分评估模型预测能力的过程。

训练集是用于评估模型参数的部分。

验证集是评估或验证模型的预测能力的部分。

测试集是对模型预测能力的最终独立评估。仅当使用验证列时才能使用测试集。请参见启动“分割”平台

使用验证方法时,显示执行按钮。使用执行按钮可反复拆分而不必重复点击拆分按钮。点击执行按钮后,将反复执行拆分,直到验证 R 方值大于接下来的 10 个拆分所获得的 R 方值时结束。该规则可能会生成不太容易解释但预测能力很强的复杂树。

使用执行按钮会启用拆分历史记录命令。若使用执行按钮生成的树包含 40 个以上的节点,则会禁用显示树状结构命令。

通过将原始数据细分为不同子集来创建训练集、验证集和测试集。选择以下方法之一来取数据集的子集:

排除行

使用行状态对数据取子集。未排除的行用作训练集,排除的行用作验证集。

有关使用行状态和如何排除行的详细信息,请参见《使用 JMP》中的隐藏和排除行

保留

将原始数据随机划分为训练数据集和验证数据集。平台启动窗口中的“验证部分”用于指定要用作验证数据集(保留)的数据占原始数据的比例。有关“验证部分”的详细信息,请参见启动“分割”平台

K 重交叉验证

将原始数据随机划分为 K 个子集。这 K 个子集依次对基于剩余 k-1 个子集的数据构建的模型进行验证,总共拟合 K 个模型。基于交叉验证 R 方选择最终模型,其中应用停止规则来避免过度拟合模型。该方法适合小数据集,因为它能充分利用有限的数据。请参见K 重交叉验证

验证列

使用列值将数据划分为多个子集。验证列最多只能包含三个数值。可以使用“分割”启动窗口中的“验证”角色分配该列。请参见启动“分割”平台

验证列的值将确定如何拆分数据:

若验证列包含两个水平,则较小的值定义训练集,较大的值定义验证集。

若验证列包含三个水平,将按值由小到大的顺序相应定义训练集、验证集和测试集。

若在“选择列”列表中没有选择任何列的情况下点击“验证”按钮,您可以向数据表添加一个验证列。有关“生成验证列”实用工具的详细信息,请参见生成验证列

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).