「Water Treatment.jmp」サンプルデータには、都市の排水処理工場内の38個のセンサーで毎日計測された値が含まれています。これらのデータから外れ値の可能性がある値を検出しましょう。外れ値の原因としては、センサーの故障、嵐、その他の状態が考えられます。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Water Treatment.jmp」を開きます。
2. [分析]>[スクリーニング]>[外れ値を調べる]を選択します。
3. 「Sensor Measurements」列グループを選択し、[Y, 列]をクリックします。
4. [OK]をクリックします。
5. [多変量のk近傍法外れ値]を選択します。
6. k近傍法のKとして「13」を入力します。
7. [OK]をクリックします。
図20.9 多変量のk近傍法外れ値の例での外れ値
「K近傍法」プロット内では、3つの外れ値が選択されています。これら3つのデータ点それぞれが、排水処理工場内の二次沈殿槽が正常に動作していないとされる行に対応しています。これら3つのデータ点は機器の不良によるものであるため、これらを今後の分析から除外します。
8. 3つの外れ値を選択して、[選択された行の除外]をクリックします。
ユーティリティを再実行するかウィンドウを閉じるかを尋ねるダイアログが表示されます。
9. [再実行]をクリックします。
10. k近傍法のKとして「13」を入力します。
11. [OK]をクリックします。
図20.10 多変量のk近傍法の例での外れ値
次に、行400に近い薄緑色の2つの外れ値に注目してください。この2つの点は、kが大きくなるにつれ、距離はどのように変化しているでしょうか。これらの2つの行は、排水処理工場による固形物負荷が高かったときのものです。これらのデータ点から第13近傍点までの距離は比較的大きいですが、この例では除外しないことにします。これは、それらのデータを研究に含めたい状況だからです。その代り、この後の分析ではこれらが外れ値であるかもしれないことに注意して分析する必要があります。