由于分割模型很容易过度拟合,因此对分割模型进行验证是非常重要的。发生这种情况时,模型可以很好地预测用于构建模型的数据,但不能很好地预测将来观测。验证是使用数据集的一部分估计模型参数并使用另一部分评估模型预测能力的过程。有关验证的详细信息,请参见JMP 建模中的验证。
在“分割”中,使用验证方法时会显示执行按钮。使用执行按钮可反复拆分而不必重复点击拆分按钮。点击执行按钮后,将反复执行拆分,直到验证 R 方值大于接下来的 10 个拆分所获得的 R 方值时结束。该规则可能会生成不太容易解释但预测能力很强的复杂树。
使用执行按钮会启用拆分历史记录命令。若使用执行按钮生成的树包含 40 个以上的节点,则会禁用显示树状结构命令。
选择以下验证方法之一:
排除行
使用行状态对数据取子集。未排除的行用作训练集,排除的行用作验证集。
有关使用行状态和如何排除行的详细信息,请参见《使用 JMP》中的隐藏和排除数据表中的行。
保留
将原始数据随机划分为训练数据集和验证数据集。平台启动窗口中的“验证部分”用于指定要用作验证数据集(保留)的数据占原始数据的比例。有关“验证部分”的详细信息,请参见启动“分割”平台。
验证列
使用用来定义验证集的某个数值列。该列应包含至多三个非重复值。
‒ 若验证列有两个水平,则较小的值定义训练集,较大的值定义验证集。
‒ 若验证列包含三个水平,将按值由小到大的顺序相应定义训练集、验证集和测试集。
‒ 若验证列有三个以上的水平,则包含最小三个值的行定义验证集。其他所有行都从分析中排除。
若在“选择列”列表中没有选择任何列的情况下点击“验证”按钮,您可以向数据表添加一个验证列。有关“生成验证列”实用工具的详细信息,请参见生成验证列。
提示:要使用“K 折交叉验证”或“嵌套 K 折交叉验证”,请通过“模型筛选”平台拟合分割模型。请参见模型筛选。
“交叉验证”报表显示以下内容:
k 重
重数。
-2LogLike 或 SSE
响应为分类变量时给出负对数似然值的两倍(-2对数似然)。响应是连续变量时,给出误差平方和 (SSE)。第一行给出重上的平均结果。第二行给出单个模型拟合所有观测的结果。有关对数似然的详细信息,请参见《拟合线性模型》中的似然、AICc 和 BIC。
R 方
第一行给出重上的平均 R 方值。第二行给出单个模型拟合所有观测的 R 方值。