「外れ値を調べる」ユーティリティを使って外れ値を識別し、その後「一変量の分布」プラットフォームを使って分析してみましょう。「Probe.jmp」サンプルデータには、5800個の半導体ウエハについて測定された、387個の変数(「Responses」列グループ)が含まれています。「ロットID」列と「ウエハ番号」列は、一意にウエハを識別します。ここでの目的は、データのいくつかの列を調べて、外れ値を識別することです。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Probe.jmp」を開きます。
2. [分析]>[スクリーニング]>[外れ値を調べる]を選択します。
3. 「Responses(387/0)」の横にある三角ボタンをクリックして、グループ内のすべての列を表示します。
4. 「VDP_M1」から「VDP_SICR」までの列を選択し、[Y, 列]をクリックします。これで、14個の列が選択されているはずです。
図21.2 「外れ値を調べる」起動ウィンドウ
5. [OK]をクリックします。
6. [分位点範囲の外れ値]をクリックします。
「分位点範囲の外れ値」レポートには、各列と、それぞれの外れ値の個数と値がリストされています。
7. 「分位点範囲の外れ値」レポートで、[外れ値のある列のみ表示]を選択します。これで、列のリストが外れ値のある列だけに制限されます。
いくつかの列の外れ値の値が9999であることに注目してください。9は多くの業界で欠測値のコードとして使用されています。
8. 「「9」を含むデータ」レポートで、各列を選択します。
9. [「欠測値のコード」に最大「9」を追加]をクリックします。
元のデータを残したい場合には、[名前を付けて保存]コマンドを使って新しいファイル名で保存するように促す警告ダイアログが表示されます。
10. [OK]をクリックします。
11. 「分位点範囲の外れ値」レポートで、[再スキャン]をクリックします。
12. [検索を整数に限定]を選択します。
連続尺度のデータでは、エラーコードや欠測値コードなどを整数の値で表すことがよくあります。ここまでの処理を施した後の列には、「9999」以外のエラーコードは含まれていないようです。
13. [検索を整数に限定]の選択を解除します。
1. 「分位点範囲の外れ値」レポートで、表示されているすべての列を選択します。
2. [行の選択]をクリックします。
3. [分析]>[一変量の分布]を選択します。
4. 先ほど選択した列を[Y, 列]の役割に割り当てます。「分位点範囲の外れ値」レポートでこれらの列を選択していたので、「一変量の分布」起動ウィンドウでもこれらの列がすでに選択されています。
5. [OK]をクリックします。
図21.3 外れ値が選択された列の分布
「VDP_M1」列と「VDP_PEMIT」列では、選択された外れ値のいくつかは大半のデータに幾分近いものとなっています。残りの列では、選択された外れ値が大半のデータからかなり離れています。これらのデータ点を調べて、分析から除外します。
1. 「分位点範囲の外れ値」レポートで、Ctrlキーを押しながら「VDP_M1」と「VDP_PEMIT」の選択を解除します。
2. 残りの列は選択されたままにして、[行の除外]をクリックします。
3. 「Q」を20に変更します。
4. [再スキャン]をクリックします。
5. レポートで「VDP_M1」と「VDP_PEMIT」を選択します。
6. [行の選択]をクリックします。
1. 「一変量の分布」レポートを再度調べます。先ほどの操作で選択された外れ値は、大半のデータから離れているので、分析から除外しても良さそうです。
2. 「分位点範囲の外れ値」レポートで、[行の除外]をクリックします。
3. 「一変量の分布」レポートで、「一変量の分布」の赤い三角ボタンをクリックし、[やり直し]>[分析のやり直し]を選択します。
図21.4 外れ値が除外された列の分布
外れ値を除外したデータの分布は、より情報を把握しやすいものとなります。