データの外れ値を調べることは、重要です。外れ値が生じる理由としては、データの収集や記録における入力ミス、測定システムの不備、あるいは、「999」などの欠測値コードやエラーコードを生のデータ値として扱ってしまっている、などが考えられます。外れ値は推定に影響します。どのような統計分析でも、外れ値の方向にバイアス(偏り)がかかります。たとえば、外れ値があると、標本分散が過大に推定されてしまいます。しかし、場合によっては、外れ値を除去せずにそのまま残しておくべきかもしれません。なぜなら、外れ値を除去することにより、逆に、標本分散が過小に推定され、逆の方向にバイアスがかかるかもしれないからです。
外れ値を削除するにしても保持するにしても、まずそれらを見つけなければなりません。外れ値を視覚的に見つける方法はいくつかあります。たとえば、箱ひげ図、ヒストグラム、および散布図を描くことによって、極端な値を見つけられることはよくあります。『はじめてのJMP』のデータの視覚化を参照してください。
「外れ値を調べる」ユーティリティには、一変量や多変量における外れ値を調べるための4つのオプションがあります。
分位点範囲の外れ値
一変量の分位点に基づいて、極端な値としての外れ値を識別します。このツールは、データ中の欠測値コードやエラーコードを見つけるのに便利です。まずこのツールから、外れ値の探索を始めると良いでしょう。分位点範囲の外れ値を参照してください。
ロバスト推定による外れ値
各列の中心と散らばりをロバストに推定し、それらの推定値に基づき、遠く離れているデータ値を外れ値として識別します。ロバスト推定による外れ値を参照してください。
多変量ロバスト推定による外れ値
「多変量の相関」プラットフォームで「ロバスト」オプションを指定したときに計算される平均と共分散行列から、Mahalanobisの距離を求め、外れ値を識別します。多変量ロバスト推定による外れ値を参照してください。
多変量のk近傍法外れ値
k番目の近傍点からの距離が遠いものを、外れ値として識別します。多変量のk近傍法外れ値を参照してください。