データの欠測値を探索し、必要に応じて補完したいとします。まずデータ内の欠測値を探索し、その後、連続尺度の列の値を補完します。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Arrhythmia.jmp」を開きます。
2. [分析]>[スクリーニング]>[欠測値を調べる]を選択します。
3. すべての列(280個)を選択し、[Y, 列]をクリックします。
4. [OK]をクリックします。[欠測値のある列のみ表示]チェックボックスを選択します。
図22.2 欠測値レポート
Figure 22.2に示す「欠測値に関する情報」から、欠測値のある列は5つだけであることがわかります。合計452行のうち、「J」列には376個の欠測値があります。大量のデータが欠測しているため、たとえそれらの欠測値を補完したとしても分析には役立たない可能性があります。そのようなデータの場合は、[欠測値をカテゴリとして扱う]オプションをサポートするプラットフォームで、「J」列の[欠測値をカテゴリとして扱う]オプションを使用してモデルを探索することもできます。
欠測値のある5つの列は連続尺度です。欠測値補完を使用して「J」列以外のこれら4つの列の欠測値を補完することにします。ここで行われる補完では、データが欠測値になる確率は、名義尺度の変数には依存せず、連続尺度の変数にのみ依存していると暗黙的に仮定します。この新しい分析を行うには、「欠測値を調べる」プラットフォームをもう一度起動する必要があります。
1. [分析]>[スクリーニング]>[欠測値を調べる]を選択します。
2. 起動ウィンドウで、「280列」の横にある赤い三角ボタンをクリックします。
列フィルタメニューを使用して、「列の選択」リストに連続尺度の列だけを表示します。
3. [尺度]>[すべて選択解除]を選択します。
すべての列が「列の選択」リストから削除されます。
4. [尺度]>[連続尺度]を選択します。
これで、「列の選択」リストには、連続尺度である207個の列だけが表示されます。
5. 207個の列をすべて選択します。Ctrlキーを押しながら「J」列をクリックしてこの列を選択解除し、[Y, 列]をクリックします。
6. [OK]をクリックします。
7. [多変量正規分布による補完]をクリックします。
共分散の推定値として縮小させた推定値を用いるかどうかを尋ねるウィンドウが表示されます。
8. [はい]をクリックします。
[名前を付けて保存]コマンドを使って元のデータを保存するよう求める警告ダイアログが表示されます。
9. [OK]をクリックします。
図22.3 欠測値補完に関する情報
「欠測値補完に関する情報」には、補完された欠測値の個数などの具体的な情報が表示されます。4つの列において欠測値が補完されました。