予測モデルおよび発展的なモデル > モデル化ユーティリティ > 「外れ値を調べる」ユーティリティ
公開日: 11/25/2021

「外れ値を調べる」ユーティリティ

「外れ値を調べる」ユーティリティには、外れ値を調べるための4つのオプションがあります。データの外れ値を調べることは、重要です。外れ値が生じる理由としては、データの収集や記録における入力ミス、測定システムの不備、欠測値コードやエラーコードを生のデータ値として扱ってしまっている、あるいは異常な値などが考えられます。外れ値により、推定値に歪みが生じ、結果にバイアスがかかってしまう可能性があります。

たとえば、外れ値があると、標本分散が過大に推定されてしまいます。しかし、場合によっては、外れ値を除去せずにそのまま残しておくべきかもしれません。なぜなら、外れ値を除去することにより、逆に、標本分散が過小に推定され、逆の方向にバイアスがかかるかもしれないからです。

外れ値を除去するかどうかにかかわらず、外れ値の存在を認識することは大切です。外れ値を視覚的に見つける方法はいくつかあります。たとえば、箱ひげ図、ヒストグラム、および散布図を描くことによって、極端な値を見つけられることがあります。『はじめてのJMP』のデータの視覚化を参照してください。

「外れ値を調べる」ユーティリティには、以下のオプションがあります。

一変量

一変量データで外れ値を探索するためのオプションが2つあります。

分位点範囲の外れ値

一変量の分位点に基づいて、極端な値としての外れ値を識別します。このツールは、データ中の欠測値コードやエラーコードを見つけるのに便利です。まずこのツールから、外れ値の探索を始めると良いでしょう。分位点範囲の外れ値を参照してください。

ロバスト推定による外れ値

各列の中心と散らばりをロバストに推定し、それらの推定値に基づき、遠く離れているデータ値を外れ値として識別します。ロバスト推定による外れ値を参照してください。

多変量

多変量データで外れ値を探索するためのオプションが2つあります。

ロバスト主成分分析による外れ値

データの行列を、低ランク近似行列と残差行列に分解し、その残差を使って外れ値を検出します。ロバスト主成分分析による外れ値を参照してください。

K近傍法外れ値

K番目の近傍点からの距離が遠いものを、外れ値として識別します。K近傍法外れ値を参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).