「外れ値を調べる」プラットフォームの「ロバスト推定による外れ値」レポートには、複数のタブに整理された一連のコントロールと結果が含まれています。
「ロバスト推定による外れ値」のコントロールでは、ロバスト推定値と乗数Kの計算に使用される方法を指定します。指定されたロバストな方法によって中心とちらばりが推定され、中心からK倍のちらばりだけ離れた値が外れ値とみなされます。
図21.7 「ロバスト推定による外れ値」のコントロール
Huber
HuberのM推定を使用して、中心とちらばりを求めます。これがデフォルトのオプションです。Huber and Ronchetti(2009)を参照してください。
Cauchy
Cauchy分布に従うと仮定して、中心とちらばりを推定します。Cauchy分布を仮定した推定は、破綻点(breakpoints)が高く、通常、Huber推定よりもロバストです。ただし、複数のクラスターにデータが分かれている場合、互いに近くなっている半分のデータだけしか考慮せず、残り半分のデータを完全に無視する傾向があります。
四分位点
中心の推定値として中央値を使用し、ちらばりの推定値として四分位範囲(IQR)を1.34898で割った値を使用します。正規分布においては、IQRを1.34898で割った値は、標準偏差です。
Kシグマ(k×σ)
中心からちらばりのK倍以上離れているデータ値を外れ値とみなします。Kの値を大きくするほど、離れている点が外れ値と見なされなくなります。デフォルトの値は4です。
再スキャン
何らかの外れ値の処理をした後に、レポートを再計算したい場合には、この[再スキャン]を行ってください。
ヒント: Ctrlキーを押しながら[再スキャン]をクリックすると、開いているすべての外れ値手法を再スキャンできます。
閉じる
「ロバスト推定と外れ値」パネルを閉じます。
ヒント: Ctrlキーを押しながら[閉じる]をクリックすると、開いているすべてのレポートを閉じることができます。
「ロバスト推定による外れ値」レポートの[列ごとの要約]タブには、起動ウィンドウで選択した列ごとに1つの行を含む表があります。この表の列は、データの中心とちらばりを推定するために使用される手法(Huber、Cauchy、四分位点)によって異なります。各手法には、それぞれ推定された中心、推定されたちらばり、および中心とちらばりに基づく外れ値の数の列があります。
[列ごとの要約]タブには、外れ値の表で1つ以上の行が選択されている場合に適用できる、以下のオプションがあります。
外れ値のある列のみ表示
[列ごとの要約]タブの表から、外れ値のない列を削除します。
データテーブルの外れ値を特定する
外れ値の要約表で選択した行に対し、元のデータテーブルにアクションを適用します。
行の選択
外れ値を含む行を選択します。
行の除外
[行の除外]属性を適用します。[再スキャン]をクリックすると、「ロバスト推定による外れ値」レポートが更新されます。
セルの色
外れ値を含むセルに色をつけます。下側の外れ値は青色、上側の外れ値は赤色で表示されます。
行の色分け
外れ値を含む行に色をつけます。
データテーブルの外れ値を削除する
外れ値の要約表で選択した行に対し、元のデータテーブルにアクションを適用します。
「欠測値のコード」に追加
レポートで選択されている列の外れ値を、その列の「欠測値のコード」列プロパティに追加します。このオプションを使うと、欠測値コードやエラーコードを、欠測値として定義できます。[再スキャン]をクリックすると、「ロバスト推定による外れ値」レポートが更新されます。
メモ: 起動ウィンドウでBy変数を指定した場合は、「ロバスト推定による外れ値」で[「欠測値のコード」に追加]を使用することはできません。
欠測値に変更
外れ値を欠測値に置換します。[再スキャン]をクリックすると、「ロバスト推定による外れ値」レポートが更新されます。
計算列の新規作成
列ごとに新しい計算式列を作成して、外れ値を欠測値に設定します。新しい列には、元の列と区別するために、ユーザ指定の接頭辞または接尾辞が付けられます。デフォルトの接尾辞は「外れ値削除」です。
計算スクリプトの作成
データテーブルに追加されるスクリプトを作成します。スクリプトが実行されると、列ごとに新しい計算式列を作成して、外れ値を欠測値に設定します。新しい列には、元の列と区別するために、ユーザ指定の接頭辞または接尾辞が付けられます。デフォルトの接尾辞は「外れ値削除」です。
「ロバスト推定による外れ値」レポートの[セルごとの外れ値]タブには、コントロールで指定された設定によって検出された個々の外れ値を含む表が含まれています。この表には、列名、行番号、外れ値距離、および個々の外れ値の実際の値が表示されます。外れ値距離は、外れ値がどの程度極端であるかの指標であり、以下の式を使用して計算されます。
外れ値距離 =
ここで
x = 外れ値の実際の値
c = 指定された外れ値の手法(Huber、Cauchy、または四分位点)によって算出された、外れ値を含む列の中心
s = 指定された外れ値の手法(Huber、Cauchy、または四分位点)によって算出された、外れ値を含む列のちらばり
外れ値距離が大きいほど、極端な外れ値であることを示します。
[セルごとの外れ値]タブには、外れ値の表で1つ以上の行が選択されている場合に適用できる、以下のオプションがあります。
データテーブルの外れ値を特定する
外れ値の要約表で選択した行に対し、元のデータテーブルにアクションを適用します。
行と列を選択
選択されている外れ値に対応する行と列を選択します。
セルの色
外れ値を含むセルに色をつけます。下側の外れ値は青色、上側の外れ値は赤色で表示されます。
データテーブルの外れ値を削除する
外れ値の要約表で選択した行に対し、元のデータテーブルにアクションを適用します。
「欠測値のコード」に追加
レポートで選択されている列の外れ値を、その列の「欠測値のコード」列プロパティに追加します。このオプションを使うと、欠測値コードやエラーコードを、欠測値として定義できます。欠測値コードやエラーコードは、整数であることが多く、また、9がいくつか並んで表されることが多いです。[再スキャン]をクリックすると、「ロバスト推定による外れ値」レポートが更新されます。
メモ: 起動ウィンドウでBy変数を指定した場合は、「ロバスト推定による外れ値」で[「欠測値のコード」に追加]を使用することはできません。
欠測値に変更
レポートで選択されている列に関して、データテーブルにおいて、外れ値を欠測値に置換します。データ値を欠測値に置換するには注意が必要です。データが無効か、正確でないとわかっている場合にのみ、データ値を欠測値に置換してください。[再スキャン]をクリックすると、「ロバスト推定による外れ値」レポートが更新されます。
メモ: 選択した外れ値が「欠測値のコード」列プロパティに追加されている場合、その外れ値は欠測値に変更されません。