「外れ値を調べる」ユーティリティには、外れ値を調べるための4つのオプションがあります。データの外れ値を調べることは、重要です。外れ値が生じる理由としては、データの収集や記録における入力ミス、測定システムの不備、欠測値コードやエラーコードを生のデータ値として扱ってしまっている、あるいは異常な値などが考えられます。外れ値により、推定値に歪みが生じ、結果にバイアスがかかってしまう可能性があります。
たとえば、外れ値があると、標本分散が過大に推定されてしまいます。しかし、場合によっては、外れ値を除去せずにそのまま残しておくべきかもしれません。なぜなら、外れ値を除去することにより、逆に、標本分散が過小に推定され、逆の方向にバイアスがかかるかもしれないからです。
外れ値を除去するかどうかにかかわらず、外れ値の存在を認識することは大切です。外れ値を視覚的に見つける方法はいくつかあります。たとえば、箱ひげ図、ヒストグラム、および散布図を描くことによって、極端な値を見つけられることがあります。『はじめてのJMP』のデータの視覚化を参照してください。
「外れ値を調べる」ユーティリティには、以下のオプションがあります。
一変量
一変量データで外れ値を探索するためのオプションが2つあります。
分位点範囲の外れ値
一変量の分位点に基づいて、極端な値としての外れ値を識別します。このツールは、データ中の欠測値コードやエラーコードを見つけるのに便利です。まずこのツールから、外れ値の探索を始めると良いでしょう。分位点範囲の外れ値を参照してください。
ロバスト推定による外れ値
各列の中心と散らばりをロバストに推定し、それらの推定値に基づき、遠く離れているデータ値を外れ値として識別します。ロバスト推定による外れ値を参照してください。
多変量
多変量データで外れ値を探索するためのオプションが2つあります。
ロバスト主成分分析による外れ値
データの行列を、低ランク近似行列と残差行列に分解し、その残差を使って外れ値を検出します。ロバスト主成分分析による外れ値を参照してください。
K近傍法外れ値
K番目の近傍点からの距離が遠いものを、外れ値として識別します。K近傍法外れ値を参照してください。