「K近傍法」プラットフォームの概要

「K近傍法」プラットフォームは、最も近くにあるk近傍の応答値に基づいて予測します。あるオブザベーションに最も近いk近傍法を特定するときには、まず、指定された説明変数をもとに、そのオブザベーションから他のオブザベーションまでのユークリッド距離を求めます。そして、そのユークリッド距離が短くｋなっているk行を特定します。「K近傍法」プラットフォームは、応答変数が連続尺度であっても、カテゴリカルであっても利用できます。

k近傍法の欠点は、大規模なデータの場合、予測式が複雑になってしまうことです。予測式の解釈が難しいことがよくあります。さらに、K近傍法は、応答変数がカテゴリカルな場合、各水準の予測確率を求めることができません。K近傍法の詳細については、Hastie et al.（2009）、Hand et al.（2001）およびShmueli et al.（2017）を参照してください。

連続尺度の変数の取り扱い

応答変数が連続尺度の場合は、最も近いk近傍における応答変数の平均を予測値とします。連続尺度の説明変数は、各説明変数の標準偏差によって尺度化されます。この尺度化により、各説明変数が距離の計算に与える影響を等しくします。なお、連続尺度の説明変数にある欠測値は、その説明変数の平均によって補完されます。第 “連続尺度の応答変数に対するK近傍法の例”を参照してください。

カテゴリカルな変数の取り扱い

また、応答変数がカテゴリカルな場合は、最も近いk行で最も頻繁に出現している応答水準を予測値とします。最も頻繁に出現している水準が複数あるときは、そこから無作為に選んだ水準を予測値とします。

メモ: 応答変数がカテゴリカルな場合で、最も頻繁に出現する水準が複数あるときには、そこから1つが無作為に選択されるため、プラットフォームを何度か実行したときに、それらの結果が異なる可能性があります。再現性のある結果を得るためには、起動ウィンドウで［乱数シード値の設定］オプションを使用するか、事前にJSLスクリプトにおいてSet Random Seed()関数を実行してください。

カテゴリカルな説明変数は、指示変数に変換されます。ここで、1つの指示変数は1つの水準を表しています。なお、カテゴリカルな説明変数で欠測値の行は、すべての指示変数の値をゼロにします。