Water Treatment.jmp 数据集包含来自一家城市污水处理厂的 38 个传感器的每日测量值。您关注的是探索这些数据中的可能离群值。可能的离群值可包括传感器故障、风暴和其他情况。
1. 选择帮助 > 样本数据库,然后打开 Water Treatment.jmp。
2. 选择分析 > 筛选 > 探索离群值。
3. 选择传感器测量值列组并点击 Y,列。
4. 点击确定。
5. 选择多元 k 最近邻离群值。
6. 输入 13 作为 k 个最近邻。
7. 点击确定。
图 20.9 多元 k 最近邻离群值示例中的离群值
请注意:在“K 最近邻”图内选定了三个极端离群值。以上三行中的每一行都对应该污水处理厂的二次沉淀池报告故障时的一个日期。因为这三个数据点都是由于设备故障导致的,所以应将其从将来分析中排除。
8. 选择三个极端离群值,然后点击排除选定行。
系统提示您“重新运行”该实用工具或“关闭”该窗口。
9. 点击重新运行。
10. 键入 13 作为 k 个最近邻。
11. 点击确定。
图 20.10 多元 k 最近邻离群值示例中的离群值
现在找到接近第 400 行的两个浅绿色离群值。注意它们随着 k 的增长越来越接近彼此。这两行对应于该污水处理厂出现固体物过多的日期。即便这些数据点的“到邻近值 K=13 的距离”相对较远,但您并不排除它们,这是因为这些数据点是由于您想要包括在研究中的情形引发的。您反而会在执行将来分析时留意它们。