「K近傍法」プラットフォームは、最も近くにあるk近傍の応答値に基づいて予測します。あるオブザベーションに最も近いk近傍法を特定するときには、まず、指定された説明変数をもとに、そのオブザベーションから他のオブザベーションまでのユークリッド距離を求めます。そして、そのユークリッド距離が短くなっているk行を特定します。「K近傍法」プラットフォームは、応答変数が連続尺度であっても、カテゴリカルであっても利用できます。
k近傍法の欠点は、大規模なデータの場合、予測式が複雑になってしまうことです。予測式の解釈が難しいことがよくあります。さらに、K近傍法は、応答変数がカテゴリカルな場合、各水準の予測確率を求めることができません。K近傍法の詳細については、Hastie et al.(2009)、Hand et al.(2001)およびShmueli et al.(2017)を参照してください。
応答変数が連続尺度の場合は、最も近いk近傍における応答変数の平均を予測値とします。連続尺度の説明変数は、各説明変数の標準偏差によって尺度化されます。この尺度化により、各説明変数が距離の計算に与える影響を等しくします。なお、連続尺度の説明変数にある欠測値は、その説明変数の平均によって補完されます。連続尺度の応答変数に対するK近傍法の例を参照してください。
また、応答変数がカテゴリカルな場合は、最も近いk行で最も頻繁に出現している応答水準を予測値とします。最も頻繁に出現している水準が複数あるときは、そこから無作為に選んだ水準を予測値とします。
注: 応答変数がカテゴリカルな場合で、最も頻繁に出現する水準が複数あるときには、そこから1つが無作為に選択されるため、プラットフォームを何度か実行したときに、それらの結果が異なる可能性があります。再現性のある結果を得るためには、起動ウィンドウで[乱数シード値の設定]オプションを使用するか、事前にJSLスクリプトにおいてSet Random Seed()関数を実行してください。
カテゴリカルな説明変数は、指示変数に変換されます。ここで、1つの指示変数は1つの水準を表しています。なお、カテゴリカルな説明変数で欠測値の行は、すべての指示変数の値をゼロにします。