「K近傍法」プラットフォームは、最も近くにあるk近傍の応答値に基づいて予測します。あるデータ行に最も近いk個の近傍を求めるには、まず、指定された説明変数をもとに、そのデータ行から他のデータ行までのユークリッド距離を求めます。そして、そのユークリッド距離が短くなっているk行を特定します。「K近傍法」プラットフォームは、応答変数が連続尺度であっても、カテゴリカルであっても利用できます。
k近傍法の欠点は、大規模なデータの場合、予測式が複雑になってしまうことです。予測式の解釈が難しいことがよくあります。さらに、K近傍法は、応答変数がカテゴリカルな場合、各水準の予測確率を求めることができません。K近傍法の詳細については、Hastie et al.(2009)、Hand et al.(2001)およびShmueli et al.(2017)を参照してください。
応答変数が連続尺度の場合は、最も近いk個の近傍における応答変数の平均を予測値とします。連続尺度の説明変数は、各説明変数の標準偏差によって尺度化されます。この尺度化により、各説明変数が距離の計算に与える影響を等しくします。なお、連続尺度の説明変数にある欠測値は、その説明変数の平均によって補完されます。連続尺度の応答変数に対するK近傍法の例を参照してください。
また、応答変数がカテゴリカルな場合は、最も近いk個の近傍のうち最も頻繁に出現している応答水準を予測値とします。最も頻繁に出現している水準が複数あるときは、そこから無作為に選んだ水準を予測値とします。
メモ: 応答変数がカテゴリカルな場合で、最も頻繁に出現する水準が複数あるときには、そこから1つが無作為に選択されるため、プラットフォームを何度か実行したときに、それらの結果が異なる可能性があります。再現性のある結果を得るためには、起動ウィンドウで[乱数シード値の設定]オプションを使用するか、事前にJSLスクリプトにおいてSet Random Seed()関数を実行してください。
カテゴリカルな説明変数は、指示変数に変換されます。ここで、1つの指示変数は1つの水準を表しています。なお、カテゴリカルな説明変数が欠測値である行は、すべての指示変数の値がゼロにされたものを計算に用います。