支持向量机 (SVM) 模型是一种监督学习算法,用于对新观测进行预测或分类。基于响应已知的一组训练数据拟合模型。然后,该模型用于预测新观测的响应。
若响应为分类响应,SVM 模型通过优化用于分离类的超平面来对数据进行分类。这也可以看作是找到最大化类之间边距的超平面。在简单的问题中,这个超平面是线性的。然而,更复杂的数据往往无法线性分离。对于这些情形,SVM 平台提供了使用径向基函数内核将点映射到非线性维度的选项,这样可以使类更容易分离。
若响应为连续响应,则拟合的模型称为支持向量回归 (SVR) 模型。在典型的回归问题中,目标是拟合一个模型,使预测响应和实际响应之间的误差最小化。在 SVR 问题中,目标是拟合一个模型,使预测响应和实际响应之间的误差落在 -ε 到 ε 的范围内。这会提供一个更灵活的拟合。在 JMP Pro 中,ε 等于 0.1。SVR 算法通过创建两个类 Y + ε 和 Y - ε 使数据增加一倍。然后,用于分类问题的同一算法也用于预测 (SVR) 问题。
SVM 算法的最大化是通过求解二次规划问题来实现的。在 JMP Pro 中,SVM 平台使用的算法基于 John Platt 于 1998 年提出的序列最小优化 (SMO) 算法。通常,SVM 二次规划问题非常大。SMO 算法将整体二次规划问题分解为一系列较小的二次规划问题。较小的二次规划问题是解析解而不是数值解,这意味着它们生成闭式解。因此,SMO 算法比求解整体二次规划问题更有效 (Platt 1998)。