公開日: 04/01/2021

ロバスト推定による外れ値

パラメータをロバスト(頑健)に推定する方法は、外れ値の影響を受けにくくなっています。[ロバスト推定による外れ値]ユーティリティには、中心とちらばりを推定するいくつかの推定法があり、中心から大きく離れた値が外れ値とみなされます。

図20.7 「ロバスト推定による外れ値」ウィンドウ 

Robust Fit Outliers Window

「ロバスト推定による外れ値」のオプション

指定されたロバストな方法によって中心とちらばりが推定され、中心からk倍のちらばりだけ離れた値が外れ値とみなされます。「ロバスト推定による外れ値」ウィンドウには、ロバストな推定法を選択したり、kを指定したりするオプションがあり、また、検出された外れ値を処理するためのツールがあります。

Huber

HuberのM推定を使用して、中心とちらばりを求めます。これがデフォルトのオプションです。Huber and Ronchetti(2009)を参照してください。

Cauchy

Cauchy分布に従うと仮定して、中心とちらばりを推定します。Cauchy分布を仮定した推定は、破綻点(breakpoints)が高く、通常、Huber推定よりもロバストです。ただし、複数のクラスターにデータが分かれている場合、互いに近くなっている半分のデータだけしか考慮せず、残り半分のデータを完全に無視する傾向があります。

四分位点

四分位範囲(IQR; interquartile range)に基づいてちらばりを推定します。中央値が中心の推定値として使われます。また、IQRを1.34898で割った値がちらばりの推定値として使われます。正規分布においては、IQRを1.34898で割った値は、標準偏差です。

K

中心からちらばりのK倍以上離れているデータ値を外れ値とみなします。Kの値を大きくするほど、離れている点が外れ値と見なされなくなります。デフォルトの値は4です。

外れ値のある列のみ表示

レポートに表示する列を、外れ値のある列だけに限定します。

特定の方法によって外れ値を探し出した後、レポートに表示されているこれらの外れ値に対して、さまざまな処理を行えます。ある列における外れ値に対して処理をしたい場合には、まず、「ロバスト推定による外れ値」レポートでその列を選択してください。

行の選択

レポートで選択されている列で外れ値を含む行を、データテーブルで選択します。

行の除外

レポートで選択されている列で外れ値を含む行に関して、[行の除外]属性をオンにします。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

セルの色

レポートで選択されている列に関して、データテーブルにおいて、外れ値を含むセルに色を塗ります。

行の色分け

レポートで選択されている列に関して、データテーブルにおいて、外れ値を含む行に色を与えます。

「欠測値のコード」に追加

レポートで選択されている列の外れ値を、その列の「欠測値のコード」列プロパティに追加します。このオプションを使うとこのオプションを使うと、欠測値コードやエラーコードを、欠測値として定義できます。欠測値コードやエラーコードは、整数であることが多く、また、9がいくつか並んだ正または負の整数で表されることが多いです。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

注: 起動ウィンドウでBy変数を指定した場合は、「ロバスト推定による外れ値」で[「欠測値のコード」に追加]を使用することはできません。

欠測値に変更

レポートで選択されている列に関して、データテーブルにおいて、外れ値を欠測値に置換します。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

再スキャン

何らかの外れ値の処理をした後に、レポートを再計算したい場合には、この[再スキャン]を行ってください。

注: Ctrlキーを押しながら、[再スキャン]をクリックすると、すべてのByグループに対して再スキャンが行われます。

閉じる

「ロバスト推定と外れ値」パネルを閉じます。

注: Ctrlキーを押しながら、[閉じる]をクリックすると、すべてのByグループのコマンドウィンドウが閉じられます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).