パラメータをロバスト(頑健)に推定する方法は、外れ値の影響を受けにくくなっています。[ロバスト推定による外れ値]ユーティリティには、外れ値を識別する閾値を決定するための、中心とちらばりを推定するいくつかの推定法があります。
図21.7 「ロバスト推定による外れ値」ウィンドウ
指定されたロバストな方法によって中心とちらばりが推定され、中心からk倍のちらばりだけ離れた値が外れ値とみなされます。「ロバスト推定による外れ値」ウィンドウには、ロバストな推定法を選択したり、kを指定したりするオプションがあり、また、検出された外れ値を処理するためのツールがあります。
Huber
HuberのM推定を使用して、中心とちらばりを求めます。これがデフォルトのオプションです。Huber and Ronchetti(2009)を参照してください。
Cauchy
Cauchy分布に従うと仮定して、中心とちらばりを推定します。Cauchy分布を仮定した推定は、破綻点(breakpoints)が高く、通常、Huber推定よりもロバストです。ただし、複数のクラスターにデータが分かれている場合、互いに近くなっている半分のデータだけしか考慮せず、残り半分のデータを完全に無視する傾向があります。
四分位点
四分位範囲(IQR; interquartile range)に基づいてちらばりを推定します。中央値が中心の推定値として使われます。また、IQRを1.34898で割った値がちらばりの推定値として使われます。正規分布においては、IQRを1.34898で割った値は、標準偏差です。
K
中心からちらばりのK倍以上離れているデータ値を外れ値とみなします。Kの値を大きくするほど、離れている点が外れ値と見なされなくなります。デフォルトの値は4です。
外れ値のある列のみ表示
レポートに表示する列を、外れ値のある列だけに限定します。
特定の方法によって外れ値を探し出した後、レポートに表示されているこれらの外れ値に対して、さまざまな処理を行えます。ある列における外れ値に対して処理をしたい場合には、まず、「ロバスト推定による外れ値」レポートでその列を選択してください。
ヒント: レポートで列を選択せずに以下のいずれかのボタンをクリックすると、すべての列を選択するか確認するJMP警告が表示されます。
行の選択
レポートで選択されている列で外れ値を含む行を、データテーブルで選択します。
行の除外
レポートで選択されている列で外れ値を含む行に関して、[行の除外]属性をオンにします。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。
セルの色
レポートで選択されている列に関して、データテーブルにおいて、外れ値を含むセルに色を塗ります。
行の色分け
レポートで選択されている列に関して、データテーブルにおいて、外れ値を含む行に色を与えます。
「欠測値のコード」に追加
レポートで選択されている列の外れ値を、その列の「欠測値のコード」列プロパティに追加します。このオプションを使うと、欠測値コードやエラーコードを、欠測値として定義できます。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。
メモ: 起動ウィンドウでBy変数を指定した場合は、「ロバスト推定による外れ値」で[「欠測値のコード」に追加]を使用することはできません。
欠測値に変更
レポートで選択されている列に関して、データテーブルにおいて、外れ値を欠測値に置換します。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。
計算列の新規作成
起動ウィンドウで指定された各列に対し、それぞれ1つの計算列を作成します。新規に作成された各列に、元の列の値が外れ値の限界値内にある場合は元の列の値、限界値内にない場合は欠測値が設定されます。新しい列には、元の列と区別するために、ユーザ指定の接頭辞または接尾辞が付けられます。デフォルトの接尾辞は「外れ値削除」です。
計算スクリプトの作成
データテーブルに追加されるスクリプトを作成します。このスクリプトを実行すると、起動ウィンドウで指定された各列に対して、それぞれ1つの計算列が作成されます。新規に作成された各列に、元の列の値が外れ値の限界値内にある場合は元の列の値、限界値内にない場合は欠測値が設定されます。新しい列には、元の列と区別するために、ユーザ指定の接頭辞または接尾辞が付けられます。デフォルトの接尾辞は「外れ値削除」です。
再スキャン
何らかの外れ値の処理をした後に、レポートを再計算したい場合には、この[再スキャン]を行ってください。
メモ: Ctrlキーを押しながら[再スキャン]をクリックすると、すべてのByグループに対して再スキャンが行われます。
[閉じる]
「ロバスト推定と外れ値」パネルを閉じます。
メモ: Ctrlキーを押しながら[閉じる]をクリックすると、すべてのByグループのコマンドウィンドウが閉じられます。