「外れ値を調べる」を使用して、データセット内にある、指定した一連の列に含まれている外れ値を識別してみましょう。その後、識別された外れ値は「一変量の分布」プラットフォームを使用して調べることができます。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Probe.jmp」を開きます。
2. [分析]>[スクリーニング]>[外れ値を調べる]を選択します。
3. 「Responses(387/0)」の横にある三角ボタンをクリックして、グループ内のすべての列を表示します。
4. 「VDP_M1」から「VDP_SICR」までの列を選択し、[Y, 列]をクリックします。これで、14個の列が選択されているはずです。
図21.2 「外れ値を調べる」起動ウィンドウ
5. [OK]をクリックします。
6. [分位点範囲の外れ値]をクリックします。
「分位点範囲の外れ値」レポートでは、タブを使って結果が整理されています。「分位点範囲の外れ値」レポートの[列ごとの要約]タブには、各列と、それぞれの外れ値の個数と値がリストされています。
7. 「分位点範囲の外れ値」レポートの[列ごとの要約]タブで、[外れ値のある列のみ表示]を選択します。これで、列のリストが外れ値のある列だけに制限されます。
いくつかの列の外れ値の値が9999であることに注目してください。9は多くの業界で欠測値のコードとして使用されています。
8. [「9」を含むデータ]タブをクリックします。
9. 「「9」を含むデータ」レポートで、各列を選択します。
10. [「欠測値のコード」に最大「9」を追加]をクリックします。
元のデータを残したい場合には、[名前を付けて保存]コマンドを使って新しいファイル名で保存するように促す警告ダイアログが表示されます。
11. [OK]をクリックします。
12. 「分位点範囲の外れ値」レポートで、[再スキャン]をクリックします。
13. [検索を整数に限定]を選択します。
連続尺度のデータでは、エラーコードや欠測値コードなどを整数の値で表すことがよくあります。ここまでの処理を施した後の列には、「9999」以外のエラーコードは含まれていないようです。
14. [検索を整数に限定]の選択を解除します。
レポートの[列ごとの要約]タブに戻ります。
1. 列をすべて選択します。
2. [行の選択]をクリックします。
3. [分析]>[一変量の分布]を選択します。
4. 先ほど選択した列を[Y, 列]の役割に割り当てます。「分位点範囲の外れ値」レポートでこれらの列を選択していたので、「一変量の分布」起動ウィンドウでもこれらの列がすでに選択されています。単に[Y, 列]をクリックします。
5. [OK]をクリックします。
図21.3 外れ値が選択された列の分布
「VDP_M1」列と「VDP_PEMIT」列では、選択された外れ値のいくつかは大半のデータに幾分近いものとなっています。残りの列では、選択された外れ値が大半のデータからかなり離れています。これでデータ点の調査が完了したので、分析から除外する列を決定できます。
レポートの[列ごとの要約]タブに戻ります。
1. Ctrlキーを押しながら、「VDP_M1」列と「VDP_PEMIT」列の選択を解除します。
2. 残りの列は選択されたままにして、[行の除外]をクリックします。
3. 「Q」を20に変更します。
4. [再スキャン]をクリックします。
5. レポートで「VDP_M1」と「VDP_PEMIT」を選択します。
6. [行の選択]をクリックします。
1. 「一変量の分布」レポートを再度調べます。先ほどの操作で選択された外れ値は、大半のデータから離れているので、分析から除外しても良さそうです。
2. 「分位点範囲の外れ値」レポートで、[行の除外]をクリックします。
3. 「一変量の分布」レポートで、「一変量の分布」の赤い三角ボタンをクリックし、[やり直し]>[分析のやり直し]を選択します。
図21.4 外れ値が除外された列の分布
外れ値を除外したデータの分布は、より情報を把握しやすいものとなります。