「外れ値を調べる」プラットフォームの「ロバスト主成分分析による外れ値」手法を使用すると、相関のある多変量データに含まれている外れ値のセルを識別できます。他の多くの多変量アプローチでは外れ値の行を識別できるだけなので、この手法は便利です。この手法をデータに適用する前に、まず列を中心化(オプション)および標準化します。標準化は以下の式で行われます。
max [Q(0.75) - Q(0.50), Q(0.50) - Q(0.25)] / [normalQuantile(0.75)]
ここで
Q(p)はpパーセントの分位点です。
メモ: Q(0.75)またはQ(0.25)が中央値と等しい場合は、ゼロでない範囲ができるまで、より端に近い分位点が使用されます。
「ロバスト主成分分析による外れ値」手法は、データが中心化・標準化された後、一連の特異値分解と閾値を決めるステップを実行して、データ行列を分解します。データは、低ランク近似行列と残差の疎行列に分解されます。そして、外れ値の残差は非常に大きく、外れ値でないものの残差はゼロに近づくように、閾値が決められます。このアルゴリズムによって、外れ値や小さなノイズのない規則的変動を捉えるのに適した行列のランクが決定されます。低ランク空間にない外れ値は、残差に基づいて検出されます。Candes et al(2009)およびLin et al(2013)を参照してください。欠測値がある場合、中心化と標準化の手順が完了した後、それらの欠測値がゼロに置き換えられます。そして、特異値分解(SVD)の反復後、そこから得られた予測値によって欠測値が更新されます。