「Arrhythmia.jmp」サンプルデータには、452人の患者の心電図(ECG)データが含まれています。このデータは、元々、心電図のさまざまなパターンから不整脈を分類するために収集されたものです。ただし、このデータテーブルには欠測値があります。ここでは、主にこれらの欠測値を調べて、必要に応じて欠測値を補完してみましょう。「欠測値を調べる」ユーティリティによる欠測値の補完は、連続尺度の列に対してのみ行うことができます。ここでは2つの段階に分けて分析を行います。
1.
|
[ヘルプ]>[サンプルデータライブラリ]を選択し、「Arrhythmia.jmp」を開きます。
|
2.
|
[分析]>[スクリーニング]>[欠測値を調べる]を選択します。
|
3.
|
すべての列(280個)を選択し、[Y, 列]をクリックします。
|
4.
|
[OK]をクリックします。[欠測値のある列のみ表示]チェックボックスを選択します。
|
図3.11 欠測値レポート
欠測値レポートに示す「欠測値に関する情報」から、欠測値のある列は5つだけであることがわかります。合計452行のうち、「J」列には376個の欠測値があります。大量のデータが欠測しているため、たとえそれらの欠測値を補完したとしても分析には役立ちません。ただし、各プラットフォームの[欠測値をカテゴリとして扱う]オプションを使って「J」列をモデルに含めると、それらの欠測情報が役立つこともあります。
欠測値のある5つの列は連続尺度です。欠測値補完を使用して「J」列以外のこれら4つの列の欠測値を補完することにします。ここで行われる補完では、データが欠測値になる確率は、名義尺度の変数には依存せず、連続尺度の変数にのみ依存していると暗黙的に仮定します。この新しい分析を行うには、「欠測値を調べる」ユーティリティをもう一度起動する必要があります。
1.
|
[分析]>[スクリーニング]>[欠測値を調べる]を選択します。
|
2.
|
起動ウィンドウで、「280列」の横にある赤い三角ボタンをクリックします。
|
3.
|
[尺度]>[すべて選択解除]を選択します。
|
4.
|
[尺度]>[連続尺度]を選択します。
|
5.
|
6.
|
[OK]をクリックします。
|
7.
|
[多変量正規分布による補完]をクリックします。
|
8.
|
[はい]をクリックします。
|
[名前を付けて保存]コマンドを使って元のデータを保存するよう求める警告ダイアログが表示されます。
9.
|
[OK]をクリックします。
|
図3.12 欠測値補完に関する情報
欠測値補完に関する情報に示す「欠測値補完に関する情報」には、補完された欠測値の個数などの具体的な情報が表示されます。4つの列において欠測値が補完されました。
「欠測値を調べる」モデル化ユーティリティを起動するには、[分析]>[スクリーニング]>[欠測値を調べる]を選択します。関心のある列を[Y, 列]リストに入力します。また、By変数を指定することもできます。