「K近傍法」プラットフォームは、最も近くにあるk近傍の応答値に基づいて予測します。あるオブザベーションに最も近いk近傍法を特定するときには、まず、指定された説明変数をもとに、そのオブザベーションから他のオブザベーションまでのユークリッド距離を求めます。そして、そのユークリッド距離が短くkなっているk行を特定します。「K近傍法」プラットフォームは、応答変数が連続尺度であっても、カテゴリカルであっても利用できます。
k近傍法の欠点は、大規模なデータの場合、予測式が複雑になってしまうことです。予測式の解釈が難しいことがよくあります。さらに、K近傍法は、応答変数がカテゴリカルな場合、各水準の予測確率を求めることができません。K近傍法の詳細については、Hastie et al.(2009)、Hand et al.(2001)およびShmueli et al.(2017)を参照してください。
応答変数が連続尺度の場合は、最も近いk近傍における応答変数の平均を予測値とします。連続尺度の説明変数は、各説明変数の標準偏差によって尺度化されます。この尺度化により、各説明変数が距離の計算に与える影響を等しくします。なお、連続尺度の説明変数にある欠測値は、その説明変数の平均によって補完されます。第 “連続尺度の応答変数に対するK近傍法の例”を参照してください。
また、応答変数がカテゴリカルな場合は、最も近いk行で最も頻繁に出現している応答水準を予測値とします。最も頻繁に出現している水準が複数あるときは、そこから無作為に選んだ水準を予測値とします。