「欠測値を調べる」プラットフォームでは、欠測値を調べる、いくつかの方法が用意されています。
• 自動データ補完
「欠測値を調べる」プラットフォームの「多変量正規分布による補完」手法は、多変量正規分布に基づいて欠測値を補完します。この手順では、すべての変数が連続尺度でなければなりません。アルゴリズムは最小2乗法に基づく補完法を使用します。共分散行列がペアごとの共分散を使用して計算されます。共分散行列の対角要素(分散)は、変数ごとに欠測値以外のすべての値を用いて計算されます。共分散行列の非対角要素は、両変数において欠測値でないペアを用いて計算されます。共分散行列が特異な場合、アルゴリズムはMoore-Penrose疑似逆行列に基づく最小2乗最小ノルム法を使って補完を行います。
[多変量正規分布による補完]では、共分散の推定値として縮小させた推定値(shrinkage estimation)を使用できます。縮小させた推定値を使用すると、共分散行列の推定値を改善できます。縮小させた推定値の詳細については、Schäfer and Strimmer(2005)を参照してください。
メモ: 検証列が指定されている場合、共分散行列は学習セットだけを用いて計算されます。
「欠測値を調べる」プラットフォームの「多変量の特異値分解補完」手法は、特異値分解(SVD; Singular Value Decomposition)を使って欠測値を補完します。この手法は、変数の数が数百を超えるようなデータに便利です。特異値分解の計算には共分散行列の計算が必要ないため、多数の変数を含むデータテーブルの場合は、この特異値分解による補完をお勧めします。この手順では、すべての変数が連続尺度でなければなりません。
特異値分解は、データの行列XをX = UDV′で表します。ここで、UとVは直交行列、Dは対角行列です。
「多変量の特異値分解補完」手法で使用される特異値分解アルゴリズムは疎なLanczos法(sparse Lanczos method)であり、これはIRLB法(Implicitly Restarted Lanczos Bidiagonalization method)とも呼ばれます。Baglama and Reichel(2005)を参照してください。「多変量の特異値分解補完」のアルゴリズムにより、以下のことが行われます。
1. 初期値として、各欠測値を、その列の平均に置き換えます。
2. 欠測部分が置き換えられた行列Xを、特異値分解します。
3. 欠測値を、特異値分解から得られたUDV′ 行列の対応する要素に置き換えます。
4. 行列Xが変化しなくなるまで、または反復の最大値に達するまで、手順2と3の特異値分解を繰り返します。
「欠測値を調べる」プラットフォームの多変量のロバスト主成分分析の手法は、ロバストな主成分を使用して欠測値を補完します。この方法では、外れ値に対してロバストな低ランク行列近似を使用して欠測値を補完します。これは、「外れ値を調べる」プラットフォームの「ロバスト主成分分析による外れ値」手法で使用されているものと同じです。ロバスト主成分分析による外れ値を参照してください。この手法は、横長のデータに便利ですが、非常に大きな次元では計算コストが高くなる場合があります。
「欠測値を調べる」プラットフォームの自動データ補完(ADI; Automated Data Imputation)手法は、低ランク行列近似法(low rank matrix approximation)の1つを使用して欠測値を代入します。この手法は、「行列補完」(matrix completion)とも呼ばれています。一度、学習すれば、その学習したモデルのスコアリング計算式を使用して、ストリーミングデータを補完できます。「ストリーミングデータ」とは、将来において新しく入手されるデータのことで、補完の調整や検証には使用されなかったデータのことを指します。この手法は柔軟かつロバスト(頑健)であり、また、低ランク近似のための最良の次元を自動的に選択します。これらの機能により、ADIはさまざまな種類のデータセットに対して適用できます。
行列の低ランク近似は、X = UDV′形式であり、特異値分解(SVD; Singular Value Decomposition)として見ることができます。ADIは、補完モデルとして柔らかい補完法(soft impute method)を使用しています。また、低ランク近似のランクをデータから決定します。
ADIアルゴリズムは次の手順を踏みます。
1. データを、学習セットと検証セットに分割します。
2. 各セットを、学習セットのデータを使用して中心化・尺度化します。
3. 分割されたそれぞれのデータセットに対して、乱数に基づき一部の非欠測部分を欠測値に変更します。この追加された欠測値を、ここでは生成された欠測値(IM; Induced Missing)と呼びます。
4. 調整パラメータの値ごとに、学習セットから補完モデルを推定します。生成された欠測値(IM)が、調整パラメータの最適値を決定するのに使用されます。
5. step 4で選択された補完モデルをもとに、学習セットから低ランク近似が行われます。
6. 学習セットへのオーバーフィットを避けるために(つまり、将来のデータに対するあてはまりがよくなるように)、検証セットをもとにランクを決めます。これは、step 5で決定されたランクを上限として、検証セットに補完モデルをあてはめることで行います。
アルゴリズムが低ランクの近似を見つけることができない場合、連続変数には平均値が補完され、カテゴリ変数には最頻値が補完されます。これらの値は学習セットから計算されます。