「Water Treatment.jmp」サンプルデータには、都市の排水処理工場内の38個のセンサーで毎日計測された値が含まれています。これらのデータから外れ値の可能性がある値を検出しましょう。外れ値の原因としては、センサーの故障、嵐、その他の状態が考えられます。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Water Treatment.jmp」を開きます。
2. [分析]>[スクリーニング]>[外れ値を調べる]を選択します。
3. 「Sensor Measurements」列グループを選択し、[Y, 列]をクリックします。
4. [OK]をクリックします。
5. Shiftキーを押しながら[ロバスト主成分分析による外れ値]をクリックします。
6. 「外れ値の閾値」に「10」と入力します。
その他のオプションについては、デフォルト値を使用します。
7. [OK]をクリックします。
図21.8 「ロバスト主成分分析による外れ値」レポート
「大きい残差のセル」表には、10を超える標準化残差または-10を下回る標準化残差のセルが表示されます。「SED-S」列には、大きな標準化残差を持つセルがいくつかあります。実際、「列の平均平方平方根」表を見ると、「SED-S」列には最大の標準化平均平方平方根があることがわかります。最大の標準化平均平方平方根を持つ行は60です。
8. レポートの下部にある[綺麗にしたデータの保存]をクリックします。
このオプションを使用すると、値をトリムするか、新しい値を補完するか、セルを欠測値に設定することによって、大きな外れ値が含まれたセルを調整できます。これらのオプションは「綺麗にした列を保存」ウィンドウにあります。
9. [補完]を選択します。[トリム]はデフォルトですでに選択されています。
10. [OK]をクリックします。
「Water Treatment.jmp」に38個の綺麗になった列が追加されます。標準化平均平方平方根の最大値が行60にあることはわかっているため、この行までスクロールして、トリムおよび補完されたセルをいくつか表示します。これで、これらの綺麗になった列を任意の種類の分析に用いることができます。
図21.9 [ロバスト主成分分析による外れ値]から綺麗にした列