“K 最近邻”平台基于 k 个最近邻的响应预测响应值。给定观测的 k 个最近邻通过以下方式来确定:标识该观测的预测变量值与其他每个观测的预测变量值之间的 k 个最小欧氏距离。“K 最近邻”平台可对连续响应和分类响应建模。
k 最近邻方法的一个潜在缺点是对于大规模问题,预测公式通常很复杂,难于解释,这限制了它的使用。此外,“K 最近邻”不计算分类响应的概率。有关 k 最近邻方法的详细信息,请参见 Hastie et al. (2009)、Hand et al. (2001) 和 Shmueli et al. (2017)。
对于连续响应,预测值是 k 个最近邻的响应的平均值。每个连续预测变量都按照其标准差来统一尺度。借助这种统一尺度,范围很大的单个预测变量不会过度影响距离计算。连续预测变量的缺失值将被该预测变量的均值取代。请参见包含连续响应的 K 最近邻的示例。
对于分类响应,预测值是 k 个最近邻出现次数最多的响应水平。若最频繁的水平同时有两个或两个以上,则随机从这些水平中选择一个来分配预测响应。
注意:对于分类响应,由于最频繁的水平的结值是随机断开的,所以每次运行平台的结果可能有所不同。要获得可重现的结果,请使用启动窗口中的“设置随机种子”选项或在 JSL 脚本中包含 Set Random Seed() 函数。