「外れ値を調べる」ユーティリティの例

このバージョンのヘルプはこれ以降更新されません。最新のヘルプは https://www.jmp.com/support/help/ja/15.2 からご覧いただけます。

予測モデルおよび発展的なモデル • モデル化ユーティリティ • 「外れ値を調べる」ユーティリティ • 「外れ値を調べる」ユーティリティの例

•

「外れ値を調べる」ユーティリティの例

「Probe.jmp」サンプルデータには、5800個の半導体ウエハについて測定された、387個の変数（「Responses」列グループ）が含まれています。「ロットID」列と「ウエハ番号」列は、一意にウエハを識別します。ここでの目的は、データのいくつかの列を調べて、外れ値を識別することです。「外れ値を調べる」ユーティリティを使って外れ値を識別し、その後「一変量の分布」プラットフォームを使って分析してみましょう。

1.

［ヘルプ］>［サンプルデータライブラリ］を選択し、「Probe.jmp」を開きます。

2.

［分析］>［スクリーニング］>［外れ値を調べる］を選択します。

3.

「VDP_M1」から「VDP_SICR」までの列を選択し、［Y, 列］をクリックします。これで、14個の列が選択されているはずです（「外れ値を調べる」起動ウィンドウを参照）。

図3.2 「外れ値を調べる」起動ウィンドウ

Explore Outliers Launch Window

4.

［OK］をクリックします。

5.

［分位点範囲の外れ値］をクリックします。

「分位点範囲の外れ値」レポートには、各列と、それぞれの外れ値の個数と値がリストされています。

6.

「分位点範囲の外れ値」レポートで［外れ値のある列のみ表示］チェックボックスをオンにします。これで、列のリストが外れ値のある列だけに制限されます。

いくつかの列の外れ値の値が9999であることに注目してください。9は多くの業界で欠測値のコードとして使用されています。

7.

「「9」を含むデータ」レポートで、各列を選択します。

8.

［「欠測値のコード」に最大「9」を追加］をクリックします。

元のデータを残したい場合には、［名前を付けて保存］コマンドを使って新しいファイル名で保存するように促す警告ダイアログが表示されます。

9.

［OK］をクリックします。

10.

「分位点範囲の外れ値」レポートで、［再スキャン］をクリックします。

11.

［検索を整数に限定］チェックボックスをオンにします。

連続尺度のデータでは、エラーコードや欠測値コードなどを整数の値で表すことがよくあります。ここまでの処理を施した後の列には、「9999」以外のエラーコードは含まれていないようです。

12.

［検索を整数に限定］の選択を解除します。

データを調べる

1.

「分位点範囲の外れ値」レポートで、表示されているすべての列を選択します。

2.

［行の選択］をクリックします。

3.

［分析］>［一変量の分布］を選びます。

4.

先ほど選択した列を［Y, 列］の役割に割り当てます。「分位点範囲の外れ値」レポートでこれらの列を選択していたので、「一変量の分布」起動ウィンドウでもこれらの列がすでに選択されています。

5.

［OK］をクリックします。

外れ値が選択された列の分布に、作成されるレポートの一部を示します。

図3.3 外れ値が選択された列の分布

Distribution of Columns with Outliers Selected

「VDP_M1」列と「VDP_PEMIT」列では、選択された外れ値のいくつかは大半のデータに幾分近いものとなっています。その他の列では、選択された外れ値は十分に離れており、分析から除外しても良さそうです。

除外した外れ値の精査

1.

「分位点範囲の外れ値」レポートで、Ctrlキーを押しながら「VDP_M1」と「VDP_PEMIT」の選択を解除します。

2.

残りの列は選択されたままにして、［行の除外］をクリックします。

3.

「Q」を20に変更します。

4.

［再スキャン］をクリックします。

5.

レポートで「VDP_M1」と「VDP_PEMIT」を選択します。［行の選択］をクリックします。

データを再度調べる

1.

「一変量の分布」レポートを再度調べます。先ほどの操作で選択された外れ値は、大半のデータから離れているので、分析から除外しても良さそうです。

2.

「分位点範囲の外れ値」レポートで、［行の除外］をクリックします。

3.

「一変量の分布」レポートの赤い三角ボタンのメニューをクリックします。

4.

［やり直し］>［分析のやり直し］を選択します。

外れ値が除外された列の分布に、作成されるレポートの一部を示します。

図3.4 外れ値が除外された列の分布

Distributions of Columns with Outliers Excluded

外れ値を除外したデータの分布は、より情報を把握しやすいものとなります。