Water Treatment.jmp 数据集包含来自一家城市污水处理厂的 38 个传感器的每日测量值。您关注的是探索这些数据中的离群值。可能的离群值可能包括传感器故障、风暴和其他情况。
1.
|
2.
|
选择分析 > 筛选 > 探索离群值。
|
3.
|
4.
|
点击确定。
|
5.
|
选择多元 k 最近邻离群值。
|
7.
|
点击确定。
|
请注意:在多元 k 最近邻离群值示例中的离群值中的“K 最近邻”图内选定了三个极端离群值。以上三行中的每一行都对应该污水处理厂的二次沉淀池报告故障时的一个日期。由于这三个数据点都是由于设备故障导致的,所以应从将来分析中排除它们。
8.
|
选择三个极端离群值,然后点击排除选定行。
|
9.
|
点击重新运行。
|
10.
|
11.
|
点击确定。
|
现在找到接近第 400 行的两个浅绿色离群值。注意它们随着 k 的增长越来越接近彼此。这两行对应于该污水处理厂出现固体过多的日期。即便这些数据点的“到邻近值 K=13 的距离”相对较远,但因为这些数据点是因为您想要包括在研究中的情形引发的,所以您不排除它们。您反而会在执行将来分析时留意它们。