パラメータをロバスト(頑健)に推定する方法は、外れ値の影響を受けにくくなっています。[ロバスト推定による外れ値]ユーティリティには、中心とちらばりを推定するいくつかの推定法があり、中心から大きく離れた値が外れ値とみなされます。
図20.7 「ロバスト推定による外れ値」ウィンドウ
指定されたロバストな方法によって中心とちらばりが推定され、中心からk倍のちらばりだけ離れた値が外れ値とみなされます。「ロバスト推定による外れ値」ウィンドウには、ロバストな推定法を選択したり、kを指定したりするオプションがあり、また、検出された外れ値を処理するためのツールがあります。
Huber
HuberのM推定を使用して、中心とちらばりを求めます。これがデフォルトのオプションです。Huber and Ronchetti(2009)を参照してください。
Cauchy
Cauchy分布に従うと仮定して、中心とちらばりを推定します。Cauchy分布を仮定した推定は、破綻点(breakpoints)が高く、通常、Huber推定よりもロバストです。ただし、複数のクラスターにデータが分かれている場合、互いに近くなっている半分のデータだけしか考慮せず、残り半分のデータを完全に無視する傾向があります。
四分位点
四分位範囲(IQR; interquartile range)に基づいてちらばりを推定します。中央値が中心の推定値として使われます。また、IQRを1.34898で割った値がちらばりの推定値として使われます。正規分布においては、IQRを1.34898で割った値は、標準偏差です。
K
中心からちらばりのK倍以上離れているデータ値を外れ値とみなします。Kの値を大きくするほど、離れている点が外れ値と見なされなくなります。デフォルトの値は4です。
外れ値のある列のみ表示
レポートに表示する列を、外れ値のある列だけに限定します。
特定の方法によって外れ値を探し出した後、レポートに表示されているこれらの外れ値に対して、さまざまな処理を行えます。ある列における外れ値に対して処理をしたい場合には、まず、「ロバスト推定による外れ値」レポートでその列を選択してください。
行の選択
レポートで選択されている列で外れ値を含む行を、データテーブルで選択します。
行の除外
レポートで選択されている列で外れ値を含む行に関して、[行の除外]属性をオンにします。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。
セルの色
レポートで選択されている列に関して、データテーブルにおいて、外れ値を含むセルに色を塗ります。
行の色分け
レポートで選択されている列に関して、データテーブルにおいて、外れ値を含む行に色を与えます。
「欠測値のコード」に追加
レポートで選択されている列の外れ値を、その列の「欠測値のコード」列プロパティに追加します。このオプションを使うとこのオプションを使うと、欠測値コードやエラーコードを、欠測値として定義できます。欠測値コードやエラーコードは、整数であることが多く、また、9がいくつか並んだ正または負の整数で表されることが多いです。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。
注: 起動ウィンドウでBy変数を指定した場合は、「ロバスト推定による外れ値」で[「欠測値のコード」に追加]を使用することはできません。
欠測値に変更
レポートで選択されている列に関して、データテーブルにおいて、外れ値を欠測値に置換します。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。
再スキャン
何らかの外れ値の処理をした後に、レポートを再計算したい場合には、この[再スキャン]を行ってください。
注: Ctrlキーを押しながら、[再スキャン]をクリックすると、すべてのByグループに対して再スキャンが行われます。
閉じる
「ロバスト推定と外れ値」パネルを閉じます。
注: Ctrlキーを押しながら、[閉じる]をクリックすると、すべてのByグループのコマンドウィンドウが閉じられます。