図3.13 「Arrhythmia.jmp」の連続変数の欠測値レポート
•
|
第 “多変量正規分布による補完”(起動ウィンドウに指定した列に、名義尺度や順序尺度のものがある場合は使用できません。)
|
•
|
第 “多変量の特異値分解補完”(起動ウィンドウに指定した列に、名義尺度や順序尺度のものがある場合は使用できません。)
|
•
|
第 “自動データ補完の設定”(起動ウィンドウに指定した列に、名義尺度や順序尺度のものがある場合は使用できません。)
|
ヒント: By変数のすべての水準に対して欠測値コマンドを実行するには、Ctrlキーを押しながら目的のコマンドのボタンをクリックします。
[多変量正規分布による補完]では、共分散の推定値として縮小させた推定値(shrinkage estimation)を使用できます。縮小させた推定値を使用すると、共分散行列の推定値を改善できます。縮小させた推定値の詳細については、Schäfer and Strimmer(2005)を参照してください。
•
|
補完を取り消すには[元に戻す]をクリックします。すると、補完された値が元の欠測値に戻ります。
「多変量の特異値分解補完」ユーティリティのデフォルトで使用される特異値分解アルゴリズムは疎なLanczos法(sparse Lanczos method)であり、これはIRLB法(Implicitly Restarted Lanczos Bidiagonalization method)とも呼ばれます。Baglama and Reichel(2005)を参照してください。このアルゴリズムにより、以下のことが行われます。
2.
|
欠測部分が置き換えられた行列Xを、特異値分解します。
|
3.
|
欠測値を、特異値分解から得られたUDV‘行列の対応する要素に置き換えます。
|
4.
|
行列Xが変化しなくなるまで、手順2と3の特異値分解を繰り返します。
|
•
|
•
|
補完を取り消すには[元に戻す]をクリックします。すると、補完された値が元の欠測値に戻ります。
行列の低ランク近似は、X = UDV‘ 形式であり、特異値分解(SVD; Singular Value Decomposition)として見ることができます。ADIは、補完モデルとして柔らかい補完法(soft impute method)を使用しています。また、低ランク近似のランクをデータから決定します。
3.
|
5.
|
第 4 步で選択された補完モデルをもとに、学習セットから低ランク近似が行われます。
|
6.
|
学習セットへのオーバーフィットを避けるために(つまり、将来のデータに対するあてはまりがよくなるように)、検証セットをもとにランクを決めます。これは、第 5 步で決定されたランクを上限として、検証セットに補完モデルをあてはめることで行います。
|
図3.14 ADI制御
起動ウィンドウで指定された列の欠測値を補完した列を現在のデータテーブルに作成します。これらの新たに作成された列は、「補完された_」という名前の列グループにまとめられます。また、「自動データ補完列」という列も作成されます。この列には、欠測値を補完する計算式が含まれています。新たな行が追加されると計算式によって、その新たな行における欠測部分が自動的に補完されます。この計算式により、ストリーミングデータの欠測値に対する補完が行えます。これは、デフォルトのオプションです。