「欠測値を調べる」レポートには、「コマンド」セクション、「欠測値に関する情報」レポート、および補完手法が選択された場合には補完レポートが表示されます。また、「コマンド」セクションには、追加のレポートや補完手法を実行するためのオプションがあります。
• コマンド
欠測値レポート
「欠測値に関する情報」レポートを表示します。このレポートには、各列の列名と欠測値数がリストされます。また、「欠測値に関する情報」レポートには、以下のオプションも含まれています。
欠測値のある列のみ表示
欠測値がない列をリストから除外します。
閉じる
「欠測値に関する情報」を閉じます。
行の選択
レポートで選択されている列で欠測値を含む行を、データテーブルで選択します。
行の除外
レポートで選択されている列で欠測値を含む行に関して、[行の除外]属性をオンにします。
セルの色
レポートで選択されている列に関して、データテーブルにおいて、欠測値を含むセルに色を塗ります。
行の色分け
レポートで選択されている列に関して、データテーブルにおいて、欠測値を含む行に色を与えます。
「欠測値に関する情報」レポートを削除するには、[閉じる]ボタンをクリックします。
欠測値のクラスター分析
欠測値のパターンに対して階層型クラスター分析を行います。このレポートには、1つのプロットと2つの樹形図が含まれています。プロットの行は、欠測値のパターンによって定義されます。各パターンに対してそれぞれ1つの行があります。列は変数に対応しています。赤いセルは、プロットの下に表示されている列が欠測値になっていることを示しています。セルの上にカーソルを置くと、そのセルが表す行番号のリストが表示されます。プロット内をクリックすると、その欠測パターンのデータ行が選択されます。また、プロットには選択されていることを示す縦の棒が表示されます。
– プロット右側の樹形図は、欠測値のパターンに対するクラスター分析の結果です。各行は、[テーブル]>[欠測値パターン表示]を使用して得られる行と同じものです。
– プロット下側の樹形図は、変数に対するクラスター分析の結果です。
このレポートを使用して、特定グループの列に類似した欠測値パターンの傾向があるかどうかを判断できます。「欠測値のクラスター分析」レポートを削除するには、[閉じる]ボタンをクリックします。
欠測値のスナップショット
欠測値のセルプロットを表示します。列は変数を表します。黒いセルは欠測値を示します。このプロットは、データ収集期間が終わる前に患者や回答者などが試験や調査から外れることができるような経時測定データの欠測を理解する上で特に便利です。「欠測値のスナップショット」レポートを削除するには、[閉じる]ボタンをクリックします。
多変量正規分布による補完
非欠測データの列に基づく予測値で欠測値を補完します。予測式は最小2乗法で推定されますが、共分散行列の推定値を改善するため、縮小させた推定値を使用できます。
注意: 数百もの列がある場合は、この手法を避けてください。
多変量の特異値分解補完
低ランク近似の特異値分解によって、欠測値を補完します。大規模なデータに対しても、処理に計算時間があまりかかりません。[多変量の特異値分解補完]をクリックすると、「補完法」ウィンドウが開き、推奨される設定が表示されます。これらの設定は調整可能です。
特異ベクトルの数
補完において計算される特異ベクトルの個数です。
メモ: 特異ベクトルの次元を大きくしすぎないことが重要です。次元が大きいと、特異値分解と補完の各反復において、数値が変化しません。
最大反復回数
欠測値の補完に使用される反復回数です。
反復ログの表示
反復回数を示す「詳細」レポートが開き、収束基準の詳細が表示されます。
データが大きい場合は、進捗バーが表示されて、特異値分解が完了した次元が示されます。いつでも補完を停止し、その次元の数を使用できます。
多変量のロバスト主成分分析補完
ロバストな主成分分析により欠測値を補完します。この方法は、外れ値にロバストな低ランク行列近似を使用して欠測値を補完します。
ヒント: この手法は、横長のデータに便利です。
自動データ補完
低ランク行列近似を使用して欠測値を補完します。この方法では、低ランク近似の最適な次元がデータから自動的に選択されます。この手法を選択する前に、補完値の保存に関するオプションやその他の高度な設定を行えます。
新しいデータテーブルを作成する
元のデータテーブルと同じ大きさのデータテーブルを新規作成します。新規作成されたテーブルには、起動ウィンドウで選択された列には補完値が含まれています。
現データテーブルに計算式を保存する
起動ウィンドウで指定された列の欠測値を補完した列を現在のデータテーブルに作成します。これらの新たに作成された列は、「補完された_」という名前の列グループにまとめられます。また、「自動データ補完列」という列も作成されます。この列には、欠測値を補完する計算式が含まれています。新たな行が追加されると計算式によって、その新たな行における欠測部分が自動的に補完されます。この計算式により、ストリーミングデータの欠測値に対する補完が行えます。これは、デフォルトのオプションです。
現データテーブルの欠測を置き換える
現在のデータテーブルに欠測値を補完します。補完された値は、データテーブル内で明るい青色で表示されます。
欠測値フラグの列も作成
([現データテーブルに計算式を保存する]オプションが選択された場合にのみ使用可能。)起動ウィンドウで指定された各列に対する「補完された_」列グループに指示変数を追加します。この列は、補完されたY列のそれぞれについて、各行が欠測値であるかどうかを示します。
次元の上限
低ランク近似における最大ランクを指定します。デフォルト値は、選択された列で形成される行列の次元に基づいて決められます。
最大反復回数
補完モデルを推定する反復計算の最大反復回数を指定します。デフォルトの値は10です。
次元選択で欠測値として扱う割合
学習セットと検証セットに追加されるIM値(imputed missing value; 生成された欠測値)の割合を決定します。デフォルトの割合は、各セットで0.2です。
検証データとして用いる行の割合
学習セットと検証セットに使用する行の割合を指定します。デフォルトの割合は、0.3です(検証セットが30%)。
乱数シード値の設定
「自動データ補完」で用いる乱数のシード値を指定します。後に同じ結果を再現したい場合には、このオプションに正の値を指定してください。
ヒント: By変数のすべての水準に対して欠測値コマンドを実行するには、Ctrlキーを押しながら目的のコマンドのボタンをクリックします。
補完手法の1つを選択すると、「欠測値を調べる」レポート ウィンドウに「欠測値補完に関する情報」レポートが追加されます。このレポートは、選択した欠測値補完に関する説明を含みます。選択した手法に応じて、以下の結果が表示されます。
• 補完された欠測値の数。
• 選択した補完手法と、選択した手法に固有の詳細。
• 影響を受けた行数と列数。
• ([多変量正規分布による補完]の場合のみ)見つかった異なる欠測値パターンの数。
• データテーブルで補完されたセルにつけられた色。
• ([多変量のロバスト主成分分析補完]の場合のみ。)「詳細」レポートには、反復回数、行列のランク、収束基準の値、標準化残差の最大絶対値が表示されます。
補完が完了すると、データテーブル内で補完された値に対応するセルに色がつけられます。「欠測値に関する情報」が開いている場合は、表示内容が更新され、欠測値がなくなったことが示されます。
補完を取り消すには[元に戻す]をクリックします。すると、補完された値が元の欠測値に戻ります。