「外れ値を調べる」プラットフォームでは、外れ値を識別、探索、および管理できます。データの外れ値を調べることは、重要です。外れ値が生じる理由としては、データの収集や記録における入力ミス、測定システムの不備、欠測値コードやエラーコードを生のデータ値として扱ってしまっている、あるいは異常な値などが考えられます。外れ値により、推定値に歪みが生じ、結果にバイアスがかかってしまう可能性があります。
たとえば、外れ値があると、標本分散が過大に推定されてしまいます。しかし、場合によっては、外れ値を除去せずにそのまま残しておくべきかもしれません。なぜなら、外れ値を除去することにより、逆に、標本分散が過小に推定され、逆の方向にバイアスがかかるかもしれないからです。
外れ値を除去するかどうかにかかわらず、外れ値の存在を認識することは大切です。外れ値を視覚的に見つける方法はいくつかあります。たとえば、箱ひげ図、ヒストグラム、および散布図を描くことによって、極端な値を見つけられることがあります。『はじめてのJMP』の「データの視覚化」を参照してください。
図21.1 多変量のk近傍法外れ値の例