公開日: 11/25/2021

K近傍法外れ値

[K近傍法外れ値]を使用すると、近傍点までの距離に基づいて外れ値を識別できます。「K近傍法外れ値」ユーティリティは、kの各値に対し、各点からそのk番目に近い点までのユークリッド距離のプロットを描きます。ユーザはkの最大値(ここではKと記す)を指定します。このとき、プロット数を少なくするためにフィボナッチ数列を使っていくつかの値をスキップしながら、k = 1,2,3,5,...,Kに対しプロットが描かれます。

近傍点が計算される前に、列が中心化・標準化されます。標準化は以下のように行われます。

max [Q(.75) - Q(.50), Q(.50) - Q(.25)] / [normalQuantile(0.75)]

ここで

Q(p)はpパーセントの分位点です。

メモ: Q(75)またはQ(25)が中央値と等しい場合は、ゼロでない範囲ができるまで、より端に近い分位点が使用されます。

このアプローチは、指定したkの値による影響を受けます。kの値が小さいと点を外れ値として識別できないことがあり、また、kの値が大きいと点が間違って外れ値に分類されることがあります。

Kに小さい値を指定したとすると、2~3個の近傍点だけを調べることになります。K個より多い点を含むクラスターがあり、そのクラスターが残りの点からは離れている場合、クラスター内の点から近傍点までの距離は小さくなります。その場合は、全体が外れ値となっているクラスターを検出できない可能性があります。

逆に、Kに大きな値を指定したとしましょう。K個より少ないデータ点からなるクラスターがある場合、そのクラスターに属するすべての点は外れ値になる可能性があります。つまり、Kに大きな値を指定すると、「それらの点がクラスター内の点である」という事実を無視して、そのクラスター全体を外れ値としてみなすことになるかもしれません。

K近傍法外れ値のレポート

コマンドのリストから[K近傍法外れ値]を選択すると、何番目の近傍点までを考慮するか、つまり上限として使用するKの値を指定するよう求められます。また、欠測値を補完するかどうかも指定する必要があります。デフォルトでは、K が「8」に設定されており、「欠測値の補完」が選択されています。

このレポートには、指定された値Kまでの、kの各値に対するプロットが描かれます。各プロットのkの値は、その縦軸のラベルに含まれています。これは、「第K近傍点までの距離」という形式で表示されます。ここでKは、K番目に近い点を意味します。各プロットには、第i行目の点からK番目に近い近傍点までの距離がプロットされます。複数のkに対して近傍点からの距離が大きい点は、概して外れ値だと言えます。

プロットの上には以下のボタンがあります。

選択された行の除外

選択されている点に対応する行を、今後の分析から除外します。データテーブルでは、「除外」の行属性がこれらの行に割り当てられます。「K近傍法」レポートを再実行するか、それとも閉じるかを尋ねられます。分析を再実行すると、行を除外して新たに近傍点が計算されます。プロットは更新され、除外された点は表示されません。

散布図行列

分析対象のすべての列に対する散布図行列を含むウィンドウを別に開きます。「K近傍法」プロットで点を選択し、散布図行列でそれらの点を見ることで、外れ値であるかもしれない値を探索できます。

近傍距離の保存

各行からの距離を、データテーブルの新しい列としてn番目の最も近い近傍に保存します。

[閉じる]

「K近傍法」レポートを閉じます。

近傍点からの外れ値

このレポートには、「近傍点からの外れ値」表も含まれています。この表には、K番目の近傍点からの距離が最大の20個のオブザベーションが含まれています。表には以下の列があります。

オブザベーションの行番号です。

距離

指定した行のオブザベーションからそのK番目の近傍点までの距離です。この表は、この列の降順に並べられています。

近傍点

k個の近傍点に対する行番号のリストです。最初の行番号が最も近い近傍点です。最後の行番号はK番目の近傍点で、このオブザベーションとその行との間の距離が「距離」列に示されています。

列<n>

対応するRSM値の列名です。

RSM<n>

各列のk個の近傍点における差の平均平方平方根を計算します。RSM値が大きいものから順に5つ表示されます。ここで、RSM1は最大RSM値です。p番目のRSM値は次のように計算されます。

Equation shown here

ここで

Dpp番目の列です。

Dp,ip番目の列のi行目の値です。

Dp,ikk番目の近傍点に対するp番目の列のi行目の値です。

メモ: 「近傍点からの外れ値」表に表示されている「列」と「RMS」の列の数は、起動ウィンドウで指定した列の数、または5のどちらか小さいほうです。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).