Water Treatment.jmp 数据集包含来自一家城市污水处理厂的 38 个传感器的每日测量值。您关注的是探索这些数据中的可能离群值。可能的离群值可包括传感器故障、风暴和其他情况。
1. 选择帮助 > 样本数据库,然后打开 Water Treatment.jmp。
2. 选择分析 > 筛选 > 探索离群值。
3. 选择 Sensor Measurements 列组并点击 Y,列。
4. 点击确定。
5. Shift+Click 稳健 PCA 离群值。
6. 在“离群值阈值”旁边输入 10。
使用其他选项的默认值。
7. 点击确定。
图 21.8 “稳健 PCA 离群值”报表
“单元格大残差”表显示统一尺度的残差大于 10 或小于 -10 的单元格。SED-S 列中有若干单元格具有较大的统一尺度的残差。若您查看“均方根列”表,它显示 SED-S 列实际上确实具有最大的统一尺度的“均方根”值。具有最大的统一尺度“均方根”值的行为第 60 行。
8. 点击报表底部的保存已清除。
该选项支持您通过去除值、插补新值或将单元格设置为缺失来调整具有较大离群值的单元格。“保存清理的列”报表提供以下选项。
9. 选择“插补”。默认已选定“切尾”。
10. 点击确定。
有 38 个新的已清理列添加到 Water Treatment.jmp 数据表中。因为您知道第 60 行的统一尺度“均方根”值最大,所以请滚动到该行以查看已去除和插补的一些单元格。您现在可以在任意类型的分析中使用已清理的列。
图 21.9 “稳健 PCA 离群值”中的已清理列