“K 最近邻”平台基于 k 个最近邻的响应预测响应值。给定观测的 k 个最近邻通过以下方式来确定:标识该观测的预测变量值与其他每个观测的预测变量值之间的 k 个最小欧氏距离。“K 最近邻”平台可对连续响应和分类响应建模。
k 最近邻方法的一个潜在缺点是对于大规模问题,预测公式通常很复杂,难于解释,这限制了它的使用。此外,“K 最近邻”不计算分类响应的概率。有关 k 最近邻方法的详细信息,请参见 Hastie et al. (2009)、Hand et al. (2001) 和 Shmueli et al.(2017) 中的表 J.1a、J.1b、J.6a 和 J.6b。
对于连续响应,预测值是 k 个最近邻的响应的平均值。每个连续预测变量都按照其标准差来统一尺度。借助这种统一尺度,范围很大的单个预测变量不会过度影响距离计算。连续预测变量的缺失值将被该预测变量的均值取代。请参见包含连续响应的 K 最近邻的示例。
对于分类响应,预测值是 k 个最近邻出现次数最多的响应水平。若最频繁的水平同时有两个或两个以上,则随机从这些水平中选择一个来分配预测响应。
注意:对于分类响应,由于最频繁的水平的结值是随机断开的,所以每次运行平台的结果可能有所不同。要获得可重现的结果,请使用启动窗口中的“设置随机种子”选项或在 JSL 脚本中包含 Set Random Seed() 函数。
在分类预测模型中,每个分类预测变量用指标变量的形式表示,用一个指标变量表示每个水平。包含分类预测变量缺失值的行在该预测变量的所有指标变量上都用零值来表示。