在您启动“支持向量机”平台后,用于拟合模型的“模型启动”控制面板随即显示。使用“模型启动”控制面板指定核函数和相关参数值以及验证方法。
图 9.5 “模型启动”控制面板
“模型启动”控制面板包含以下选项:
核函数
指定模型中使用的核函数。从以下核函数中进行选择:
径向基函数
选择径向基函数内核,以创建用于分离各个类的非线性超平面。
‒ 成本参数是在训练集中与观测误分类相关联的罚值。成本较高的参数实现的算法不太可能误分类训练集中的点,而成本较低的参数生成更宽的范围。成本参数必须大于 0,且默认值为 1。
‒ Gamma 参数是核函数中的参数。该参数确定决策线的曲率;Gamma 值越高,表示曲率越大。非线性决策线提供了更灵活的拟合,但曲率过大会导致过度拟合。Gamma 参数必须大于 0,且默认值为 1/(预测变量数)。
线性
选择线性核函数以创建用于分离各个类的线性超平面。
‒ 成本参数是在训练集中与观测误分类相关联的罚值。成本较高的参数实现的算法不太可能误分类训练集中的点,而成本较低的参数生成更宽的范围。成本参数必须大于 0,且默认值为 1。
注意:若指定的参数值超出范围,则使用默认值。
提示:要查找最佳拟合模型,需拟合一系列核函数和参数值并使用“模型比较”报表。
调节设计
支持您拟合指定内核的一系列参数值。具有最大 R 方和最小误分类率或 RASE 的模型会在“模型比较”报表中标识出来。选择“调节设计”后,必须为参数指定最小值和最大值。默认值基于您的数据,且最小值必须大于零。您还必须为“运行次数”指定一个值。SVM 平台在由最小值和最大值确定的参数值网格上拟合许多模型。
验证方法
指定模型验证方法。首次点击执行按钮后,将使用指定的验证方法拟合第一个 SVM 模型。“验证方法”随后用于 SVM 窗口内的所有 SVM 模型拟合。这样可以确保报表窗口中的所有模型都使用相同的验证方法和验证集进行拟合。
保留
将原始数据随机划分为训练集和验证集。您可以指定要用作验证集(保留)的数据占原始数据的比例。
K 折
(仅当 Y 为连续型或名义型时才可用。)将原始数据随机划分为 K 个子集。这 K 个子集依次对基于剩余 k-1 个子集的数据构建的模型进行验证,总共拟合 K 个模型。若 Y 为连续型,具有最佳验证 RASE 统计量的模型将被选为最终模型。若 Y 为名义型,具有最佳验证误分类率的模型将被选为最终模型。
验证列
(仅当在启动窗口中指定了验证列时才可用。)使用指定的验证列中的值将数据分成多个部分。该列的值决定如何拆分数据,以及使用什么方法进行验证:
‒ 若有两个值,较小的值定义训练集,较大的值定义验证集。
‒ 若有三个值,这些值按大小递增的顺序定义训练集、验证集和测试集。
‒ 若验证列有三个以上水平,则使用“验证列 K 折”。
SVM 平台使用验证列来训练和评估模型,除非使用了“调节设计”。若选定“调节设计”选项,SVM 平台使用验证列来训练和调优模型,或者训练、调优和评估模型。有关验证的详细信息,请参见“JMP 建模中的验证”。
注意:若验证列未能导致有效地分割数据,则改用“保留”验证方法。
验证列 K 折
(仅当“Y,响应”列恰好有两个水平并且在启动窗口中指定了验证列时才可用。)使用指定验证列中的值将数据划分为 K 个集,其中 K 是列中唯一值的数目。然后,执行 K 折验证。
无
未使用验证。
执行
拟合指定的 SVM 模型并显示模型报表。
注意:若有大型数据表,则会为拟合数据的每个模型显示一个进度条。模型拟合的总数为 k!/2(k-2)!,其中 k 是响应变量的水平数。每个进度条都有一个接受当前估计值按钮。若您想要提前停止拟合算法并接受当前估计值,点击该按钮。由于预测计算是在点击该按钮后执行的,因此可能需要一些时间才能显示报表。
包含任何缺失预测变量值的行不包括在 SVM 建模过程中。因此,保存至数据表的所有列将包含这些行中的缺失值。若您要在 SVM 模型中包含具有缺失值的数据,则需要某种形式的预处理。请参见“探索缺失值”。