「Arrhythmia.jmp」サンプルデータには、452人の患者の心電図(ECG)データが含まれています。このデータは、元々、心電図のさまざまなパターンから不整脈を分類するために収集されたものです。ただし、このデータテーブルには欠測値があります。ここでは、主にこれらの欠測値を調べて、必要に応じて欠測値を補完してみましょう。「欠測値を調べる」ユーティリティによる欠測値の補完は、連続尺度の列に対してのみ行うことができます。ここでは2つの段階に分けて分析を行います。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Arrhythmia.jmp」を開きます。
2. [分析]>[スクリーニング]>[欠測値を調べる]を選択します。
3. すべての列(280個)を選択し、[Y, 列]をクリックします。
4. [OK]をクリックします。[欠測値のある列のみ表示]チェックボックスを選択します。
図20.11 欠測値レポート
図20.11に示す「欠測値に関する情報」から、欠測値のある列は5つだけであることがわかります。合計452行のうち、「J」列には376個の欠測値があります。大量のデータが欠測しているため、たとえそれらの欠測値を補完したとしても分析には役立たない可能性があります。そのようなデータの場合は、[欠測値をカテゴリとして扱う]オプションをサポートするプラットフォームで、「J」列の[欠測値をカテゴリとして扱う]オプションを使用してモデルを探索できます。
ここには、[多変量正規分布による補完]と[多変量の特異値分解補完]という2つの補完オプションが表示されていません。分析に含まれている一部の列がカテゴリカルであることを示すメッセージが表示されています。このデータテーブルには、数値データタイプで、かつ名義尺度の列がいくつかあります。これらの列は補完に使用できません。
欠測値のある5つの列は連続尺度です。欠測値補完を使用して「J」列以外のこれら4つの列の欠測値を補完することにします。ここで行われる補完では、データが欠測値になる確率は、名義尺度の変数には依存せず、連続尺度の変数にのみ依存していると暗黙的に仮定します。この新しい分析を行うには、「欠測値を調べる」ユーティリティをもう一度起動する必要があります。
1. [分析]>[スクリーニング]>[欠測値を調べる]を選択します。
2. 起動ウィンドウで、「280列」の横にある赤い三角ボタンをクリックします。
列フィルタメニューを使用して、「列の選択」リストに連続尺度の列だけを表示します。
3. [尺度]>[すべて選択解除]を選択します。
すべての列が「列を選択」リストから削除されます。
4. [尺度]>[連続尺度]を選択します。
これで、「列を選択」リストには、連続尺度である207個の列だけが表示されます。
5. 207個の列をすべて選択します。Ctrlキーを押しながら「J」列をクリックしてこの列を選択解除し、[Y, 列]をクリックします。
6. [OK]をクリックします。
7. [多変量正規分布による補完]をクリックします。
共分散の推定値として縮小させた推定値を用いるかどうかを尋ねるウィンドウが表示されます。
8. [はい]をクリックします。
[名前を付けて保存]コマンドを使って元のデータを保存するよう求める警告ダイアログが表示されます。
9. [OK]をクリックします。
図20.12 欠測値補完に関する情報
「欠測値補完に関する情報」には、補完された欠測値の個数などの具体的な情報が表示されます。4つの列において欠測値が補完されました。
「欠測値を調べる」モデル化ユーティリティを起動するには、[分析]>[スクリーニング]>[欠測値を調べる]を選択します。関心のある列を[Y, 列]リストに入力します。また、By変数を指定することもできます。
注: 「欠測値を調べる」ユーティリティに入力できるのは、数値データタイプの列だけです。