外れ値を検出する方法の1つとして、他のほとんどの点から離れている点を選ぶことが考えられます。それには、近傍点からの距離を用いることが考えられます。「多変量のk近傍法外れ値」ユーティリティは、各点から、そのK番目に近い点までのユークリッド距離のプロットを描きます。 ユーザは近傍点の個数Kに対する最大値(ここでは、その最大値をkと記します)を指定します。このとき、プロット数を少なくするためにフィボナッチ数列によっていくつかの値をスキップしながら、K = 1,2,3,...,kに対してプロットが描かれます。
•
|
kに小さい値を指定したとすると、2~3個の近傍点だけを調べることになります。k個より多い点を含むクラスターがあり、そのクラスターが残りの点からは離れている場合、クラスター内の点から近傍点までの距離は小さくなります。その場合は、全体が外れ値となっているクラスターを検出できない可能性があります。
|
•
|
逆に、kに大きな値を指定したとしましょう。k個より少ないデータ点からなるクラスターがある場合、そのクラスターに属するすべての点は外れ値になる可能性があります。つまり、kに大きな値を指定すると、「それらの点がクラスター内の点である」という事実を無視して、そのクラスター全体を外れ値としてみなすことになるかもしれません。
|
コマンドのリストから[多変量のk近傍法外れ値]を選択すると、何番目の近傍点までを考慮するか、つまり上限として使用するkの値を指定するよう求められます。デフォルトでは8に設定されています。
レポートには、指定されたkまでの、Kの各値に対するプロットが描かれます。各プロットで使われた K値は、各プロットの縦軸のラベルに表示されます。これは、「第K近傍点までの距離」という形式で表示されます。ここでKは、 K番目に近い点を意味します。各プロットには、第i行目の点からK番目に近い近傍点までの距離がプロットされます。複数のKに対して近傍点からの距離が大きい点は、概して外れ値だと言えます。
各行からの距離を、データテーブルの新しい列としてn番目の最も近い近傍に保存します。