本附录列出了每个平台中可用的交叉验证类型。交叉验证类型定义如下:
将排除行用作验证保留
将数据表中的排除行用作验证保留集。
注意:对于支持将排除行用作验证保留集的平台,仅当启动窗口中没有指定验证列或验证比例时才使用排除行。
随机验证保留
将原始数据随机划分为训练集和验证集。也可包括测试集。您可以指定要在每个集中使用的原始数据的比例。
K 重交叉验证
将原始数据划分为 K 个子集。这 K 个子集依次对基于剩余 k-1 个子集的数据构建的模型进行验证,总共拟合 K 个模型。给出最佳验证统计量的模型将被选为最终模型。
注意:对于某些平台,在模型控制启动中指定。对于其他平台,在启动中指定。对于还有一些平台,通过验证列指定
验证角色列
使用该列的值将数据划分为多个部分。可以使用平台启动窗口中的“验证”角色分配该列。
注意:不同平台以不同方式处理包含超过 3 个水平的列。请参见下表中的注释。
平台 |
将排除行用作验证保留 |
随机验证保留 |
K 重交叉验证 |
验证角色列 |
---|---|---|---|---|
拟合模型 > 拟合最小二乘法 |
否 |
否 |
否 |
是(仅用于模型评估)1 |
拟合模型 > 前向逐步回归 |
否 |
否 |
是(仅用于连续响应模型) |
是 |
拟合模型 > Logistic 回归 |
否 |
否 |
否 |
是(仅用于模型评估)a |
拟合模型 > 广义回归 |
否 |
是 |
是 |
是 |
拟合模型 > 偏最小二乘 |
否 |
是 |
是 |
是 |
分割 |
是 |
是 |
是 |
是2 |
Bootstrap 森林法 |
是 |
是 |
否 |
是b |
提升树 |
是 |
是 |
否 |
是b |
K 最近邻 |
是 |
是 |
否 |
是b |
朴素 Bayes |
是 |
是 |
否 |
是b |
神经 |
是 |
是 |
是(通过模型启动或具有 3 个以上水平的验证列) |
是 |
K 最近邻 |
是 |
是 |
否 |
是b |
朴素 Bayes |
是 |
是 |
否 |
是b |
支持向量机 |
否 |
是 |
是(通过模型启动) |
是 |
函数数据分析器 |
否 |
否 |
否 |
是(必须结构化为“分组随机”验证列)3 |
判别 |
可选 |
否 |
否 |
是b |
偏最小二乘 |
否 |
是 |
是(通过模型启动或具有 3 个以上水平的验证列) |
是 |
提升 |
否 |
是 |
否 |
是b |
1 若有三个以上水平,则忽略验证列。
2 若有三个以上水平,则平台仅使用具有三个最小值的行。
3 若有两个以上水平,则最小的值定义训练集,所有其他值定义验证集。