外れ値を検出する方法の1つとして、他のほとんどの点から離れている点を選ぶことが考えられます。それには、近傍点からの距離を用いることが考えられます。「多変量のk近傍法外れ値」ユーティリティは、各点から、そのK番目に近い点までのユークリッド距離のプロットを描きます。ユーザは近傍点の個数Kに対する最大値(ここでは、その最大値をkと記します)を指定します。このとき、プロット数を少なくするためにフィボナッチ数列によっていくつかの値をスキップしながら、K = 1,2,3,...,kに対してプロットが描かれます。
このアプローチは、指定したkの値による影響を受けます。kの値が小さいと点を外れ値として識別できないことがあり、また、kの値が大きいと点が間違って外れ値に分類されることがあります。
• kに小さい値を指定したとすると、2~3個の近傍点だけを調べることになります。k個より多い点を含むクラスターがあり、そのクラスターが残りの点からは離れている場合、クラスター内の点から近傍点までの距離は小さくなります。その場合は、全体が外れ値となっているクラスターを検出できない可能性があります。
• 逆に、kに大きな値を指定したとしましょう。k個より少ないデータ点からなるクラスターがある場合、そのクラスターに属するすべての点は外れ値になる可能性があります。つまり、kに大きな値を指定すると、「それらの点がクラスター内の点である」という事実を無視して、そのクラスター全体を外れ値としてみなすことになるかもしれません。
コマンドのリストから[多変量のk近傍法外れ値]を選択すると、何番目の近傍点までを考慮するか、つまり上限として使用するkの値を指定するよう求められます。デフォルトでは8に設定されています。
レポートには、指定されたkまでの、Kの各値に対するプロットが描かれます。各プロットで使われた K値は、各プロットの縦軸のラベルに表示されます。これは、「第K近傍点までの距離」という形式で表示されます。ここでKは、K番目に近い点を意味します。各プロットには、第i行目の点からK番目に近い近傍点までの距離がプロットされます。複数のKに対して近傍点からの距離が大きい点は、概して外れ値だと言えます。
プロットの上には以下のボタンがあります。
選択された行の除外
選択されている点に対応する行を、今後の分析から除外します。データテーブルでは、「除外」の行属性がこれらの行に割り当てられます。「K近傍法」レポートを再実行するか、それとも閉じるかを尋ねられます。分析を再実行すると、行を除外して新たに近傍点が計算されます。プロットは更新され、除外された点は表示されません。
散布図行列
分析対象のすべての列に対する散布図行列を含むウィンドウを別に開きます。「K近傍法」プロットで点を選択し、散布図行列でそれらの点を見ることで、外れ値であるかもしれない値を探索できます。
近傍距離の保存
各行からの距離を、データテーブルの新しい列としてn番目の最も近い近傍に保存します。
閉じる
「K近傍法」レポートを閉じます。