公開日: 11/25/2021

ロバスト主成分分析による外れ値

「ロバスト主成分分析による外れ値」ユーティリティを使用すると、相関のある多変量データに含まれている外れ値のセルをすばやく識別できます。他の多くの多変量アプローチでは外れ値の行を識別できるだけなので、この手法は便利です。この手法を適用するには、まず列を中心化(オプション)・標準化します。標準化は以下の式で行われます。

max [Q(.75) - Q(.50), Q(.50) - Q(.25)] / [normalQuantile(0.75)]

ここで

Q(p)はpパーセントの分位点です。

メモ: Q(75)またはQ(25)が中央値と等しい場合は、ゼロでない範囲ができるまで、より端に近い分位点が使用されます。

「ロバスト主成分分析による外れ値」ユーティリティは、データが中心化・標準化された後、一連の特異値分解と閾値を決めるステップを実行して、データ行列を分解します。データは、低ランク近似行列と残差の疎行列に分解されます。そして、外れ値の残差は非常に大きく、外れ値でないものの残差はゼロに近づくように、閾値が決められます。このアルゴリズムによって、外れ値や小さなノイズのない規則的変動を捉えるのに適した行列のランクが決定されます。低ランク空間にない外れ値は、残差に基づいて検出されます。Candes et al(2009)およびLin et al(2013)を参照してください。欠測値がある場合、中心化と標準化の手順が完了した後、それらの欠測値がゼロに置き換えられます。そして、特異値分解(SVD)の反復後、そこから得られた予測値によって欠測値が更新されます。

「ロバスト主成分分析による外れ値」レポート

コマンドのリストから[ロバスト主成分分析による外れ値]を選択する場合は、Lambdaの値を指定し、データを中心化するかどうかを選択する必要があります。また、Shiftキーを押しながら[ロバスト主成分分析による外れ値]ボタンをクリックした場合は、以下のオプションも使用できます。

Lambda

残差行列の希薄性を決定する値を指定します。Lambdaの値が大きいほど、残差行列も希薄になります。n個の学習行とp個の列があるデータの場合、Lambdaのデフォルト値は以下のように定義されます。

Equation shown here

最大反復回数

特異値分解の反復の最大回数を指定します。

収束基準

アルゴリズムをいつ停止するかを決定します。

外れ値の閾値

「大きい残差のセル」の表に表示される外れ値を決定するための、外れ値の閾値を指定します。標準化残差が以下の値より大きい場合は、オブザベーションが表示されます。

min[0.99 × max{abs(residuals)}, 外れ値の閾値]

外れ値の閾値のデフォルト値は2です。

中心化

「ロバスト主成分分析による外れ値」のアルゴリズムが実行される前にデータを中心化するかどうかを決定します。

メモ: 行の数が10個以下の場合、そのデータは中心化されません。

標準化

「ロバスト主成分分析による外れ値」のアルゴリズムが実行される前にデータを標準化するかどうかを決定します。

メモ: 行の数が10個以下の場合、そのデータは標準化されません。

「ロバスト主成分分析による外れ値」レポートには、この手法に関する情報を含む表があります。この表には、低ランク行列のランク、特異値分解の反復回数、収束基準、Lambdaの値、および補完された欠測値の数が含まれています。また、このレポートには、以下の表やレポートが含まれています。

大きい残差のセル

この表には、最大の外れ値のセルが表示されます。表示されるセルの数は、外れ値の閾値によって決まります。この表には、セルの列名と行番号、残差、および標準化残差の値が含まれます。

ヒント: データテーブル内の特定の外れ値のセルに色をつけるには、「大きい残差のセル」表で行を選択し、[色をつける]をクリックします。

行の平均平方平方根

この表には、データテーブル内の各行の平均平方平方根値が表示されます。平均平方平方根は、標準化残差を使って計算されます。

ヒント: 「行の平均平方平方根」表で行を選択すると、それに対応する行がデータテーブルで選択されます。

列の平均平方平方根

この表には、起動ウィンドウで指定した各列の平均平方平方根値が表示されます。平均平方平方根は、標準化残差を使って計算されます。

ヒント: 「列の平均平方平方根」表で行を選択し、[列の選択]をクリックすると、それに対応する列がデータテーブルで選択されます。

スナップショット

データテーブル内にある外れ値のセルを表すグラフです。外れ値のセルには赤い色がついています。

残差

行列の分解で得られた残差の行列です。標準化残差の絶対値が次の値より大きい場合は、セルに色がつけられます。

min[0.99 × max{abs(residuals)}, 外れ値の閾値]

低ランク近似

行列の分解で得られた標準化残差の行列です。

特異値

特異値分解で得られた特異値のベクトルです。

「ロバスト主成分分析による外れ値」のオプション

「ロバスト主成分分析による外れ値」レポートの下部には、レポートのさまざまな部分を保存するためのボタンがあります。

閉じる

「ロバスト主成分分析による外れ値」レポートを閉じます。

大きい外れ値の保存

「大きい残差のセル」表内の情報を新しいデータテーブルに保存します。

綺麗にしたデータの保存

閾値に基づいて外れ値を整理し、新しい列をデータテーブルに保存するための手法を指定できるウィンドウが開きます。

トリム

外れ値のセルをトリムします。ただし、これは標準化残差の絶対値が指定した閾値より大きい場合です。デフォルトの閾値は10です。[色Image shown here]を選択すると、外れ値のセルが赤く表示されます。トリムされたセルは、標準化されていない閾値に設定されます。

補完

外れ値のセルを低ランク近似の値に設定します。ただし、これは対応する標準化残差の絶対値が指定した閾値より大きい場合です。デフォルトの閾値は100です。[色Image shown here]を選択すると、これらのセルが緑で表示されます。

欠測値に置換

外れ値のセルを欠測値に設定します。ただし、これは標準化残差の絶対値が指定した閾値より大きい場合です。デフォルトの閾値は1000です。[色Image shown here]を選択すると、これらのセルが青で表示されます。

補完した欠測値に色をつけるImage shown here

このチェックボックスをオンにすると、欠測値が補完されたセルに色をつけることができます。

残差の保存

残差を元のデータテーブルの新しい列に保存します。

標準化残差の保存

標準化残差を元のデータテーブルの新しい列に保存します。

低ランク近似の保存

低ランク近似を元のデータテーブルの新しい列に保存します。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).