「外れ値を調べる」プラットフォームの「K近傍法外れ値」手法を使用すると、近傍点までの距離に基づいて外れ値を識別できます。「K近傍法外れ値」手法は、kの各値に対し、各点からそのk番目に近い点までのユークリッド距離のプロットを描きます。ユーザはkの最大値(ここではKと記す)を指定します。このとき、プロット数を少なくするためにフィボナッチ数列を使っていくつかの値をスキップしながら、k = 1,2,3,5,...,Kに対しプロットが描かれます。
近傍点が計算される前に、列が中心化・標準化されます。標準化は以下のように行われます。
max [Q(0.75) - Q(0.50), Q(0.50) - Q(0.25)] / [normalQuantile(0.75)]
ここで
Q(p)はpパーセントの分位点です。
メモ: Q(0.75)またはQ(0.25)が中央値と等しい場合は、ゼロでない範囲ができるまで、より端に近い分位点が使用されます。
このアプローチは、指定したkの値による影響を受けます。kの値が小さいと点を外れ値として識別できないことがあり、また、kの値が大きいと点が間違って外れ値に分類されることがあります。
• Kに小さい値を指定したとすると、2~3個の近傍点だけを調べることになります。K個より多い点を含むクラスターがあり、そのクラスターが残りの点からは離れている場合、クラスター内の点から近傍点までの距離は小さくなります。その場合は、全体が外れ値となっているクラスターを検出できない可能性があります。
• 逆に、Kに大きな値を指定したとしましょう。K個より少ないデータ点からなるクラスターがある場合、そのクラスターに属するすべての点は外れ値になる可能性があります。つまり、Kに大きな値を指定すると、「それらの点がクラスター内の点である」という事実を無視して、そのクラスター全体を外れ値としてみなすことになるかもしれません。