“K 最近邻”平台基于 K 个最近的行预测响应值。给定行的 k 个最近行通过以下方式来确定:标识该行的预测变量值与其他每行的预测变量值之间的 k 个最小欧几里得距离。对于连续响应,预测值是 k 个最近行的响应的平均值。对于分类响应,预测值是 k 个最近邻出现次数最多的响应水平。若最频繁的水平同时有两个或两个以上,则随机从这些水平中选择一个来分配预测响应。
请注意以下关于 k 最近邻方法的可能缺陷:
有关 k 最近邻方法的详细信息,请参见 Hastie et al. (2009)、Hand et al. (2001) 和 Shmueli et al. (2017)。