使用“探索离群值”标识数据集中选定的一组列内的离群值。随后可以使用“分布”平台检查标识的离群值。
1. 选择帮助 > 样本数据文件夹,然后打开 Probe.jmp 样本数据表。
2. 选择分析 > 筛选 > 探索离群值。
3. 点击 Responses(387/0) 旁边的小三角以显示组中所有列。
4. 从列 VDP_M1 一直选择到 VDP_SICR,然后点击 Y,列。应已选定 14 列。
图 21.2 探索离群值启动窗口
5. 点击确定。
6. 点击分位数范围离群值。
“分位数范围离群值”报表使用选项卡来组织结果。“分位数范围离群值”报表的“按列选择离群值”选项卡显示每列并列出找到的离群值的数量和标识。
7. 在“分位数范围离群值”报表的“按列选择离群值”选项卡中,选择仅显示带离群值的列。这会将列列表限定为仅包含离群值的那些列。
请注意,有若干列包含离群值 9999。许多行业都将一串 9 用作缺失值代码。
8. 点击“一串 9”选项卡。
9. 在“一串 9”报表中,选择每列。
10. 点击将最高一串 9 添加至缺失值代码。
会有一条 JMP 警示提醒您应该使用另存为命令保留原始数据。
11. 点击确定。
12. 在“分位数范围离群值”报表中,点击重新扫描。
13. 选择将搜索限制为整数。
在连续数据的情况下,整数值往往是错误代码或其他编码数据值。请注意,该组列中未包含其他错误代码。
14. 取消选择将搜索限制为整数。
返回报表的“按列选择离群值”选项卡。
1. 选择其余的所有列。
2. 点击选择行。
3. 选择分析 > 分布。
4. 将选定列分配到 Y,列角色。由于您在“分位数范围离群值”报表中选定了这些列名,所以它们在“分布”启动窗口中已经处于选定状态。只需点击 Y,列。
5. 点击确定。
图 21.3 带有已选定离群值的列的分布
在列 VDP_M1 和 VDP_PEMIT 中,请注意有些选定的离群值与大多数数据有些接近。对于其余的列,选定的离群值看起来远离大多数数据。既然已经调查了数据点,您就可以决定从分析中排除哪些列。
返回报表的“按列选择离群值”选项卡。
1. 按住 Ctrl 键并取消选择列 VDP_M1 和 VDP_PEMIT。
2. 在选定报表中其余列的情况下,点击排除行。
3. 将 Q 改为 20。
4. 点击重新扫描。
5. 选择报表中的列 VDP_M1 和 VDP_PEMIT。
6. 点击选择行。
1. 再次检查“分布”报表。请注意,选定的离群值现在足够远离大多数数据,可以选定它们并从分析中排除它们。
2. 在“分位数范围离群值”报表中,点击排除行。
3. 在“分布”报表中,点击“分布”红色小三角并选择重新运行 > 重新运行分析。
图 21.4 带有已排除离群值的列的分布
排除离群值后,所显示的数据分布现在更能够说明问题。