预测和专业建模 > 探索离群值 > 探索离群值的示例
发布日期: 09/18/2023

探索离群值的示例

使用“探索离群值”标识数据集中选定的一组列内的离群值。随后可以使用“分布”平台检查标识的离群值。

1. 选择帮助 > 样本数据文件夹,然后打开 Probe.jmp 样本数据表。

2. 选择分析 > 筛选 > 探索离群值

3. 点击 Responses(387/0) 旁边的小三角以显示组中所有列。

4. 从列 VDP_M1 一直选择到 VDP_SICR,然后点击 Y,列。应已选定 14 列。

图 21.2 探索离群值启动窗口 

Explore Outliers Launch Window

5. 点击确定

6. 点击分位数范围离群值

“分位数范围离群值”报表使用选项卡来组织结果。“分位数范围离群值”报表的“按列选择离群值”选项卡显示每列并列出找到的离群值的数量和标识。

7. 在“分位数范围离群值”报表的“按列选择离群值”选项卡中,选择仅显示带离群值的列。这会将列列表限定为仅包含离群值的那些列。

请注意,有若干列包含离群值 9999。许多行业都将一串 9 用作缺失值代码。

8. 点击“一串 9”选项卡。

9. 在“一串 9”报表中,选择每列。

10. 点击将最高一串 9 添加至缺失值代码

会有一条 JMP 警示提醒您应该使用另存为命令保留原始数据。

11. 点击确定

12. 在“分位数范围离群值”报表中,点击重新扫描

13. 选择将搜索限制为整数

在连续数据的情况下,整数值往往是错误代码或其他编码数据值。请注意,该组列中未包含其他错误代码。

14. 取消选择将搜索限制为整数

检查数据

返回报表的“按列选择离群值”选项卡。

1. 选择其余的所有列。

2. 点击选择行

3. 选择分析 > 分布

4. 将选定列分配到 Y,列角色。由于您在“分位数范围离群值”报表中选定了这些列名,所以它们在“分布”启动窗口中已经处于选定状态。只需点击 Y,列

5. 点击确定

图 21.3 带有已选定离群值的列的分布 

Distribution of Columns with Outliers Selected

在列 VDP_M1VDP_PEMIT 中,请注意有些选定的离群值与大多数数据有些接近。对于其余的列,选定的离群值看起来远离大多数数据。既然已经调查了数据点,您就可以决定从分析中排除哪些列。

精简排除的离群值

返回报表的“按列选择离群值”选项卡。

1. 按住 Ctrl 键并取消选择列 VDP_M1VDP_PEMIT

2. 在选定报表中其余列的情况下,点击排除行

3. 将 Q 改为 20。

4. 点击重新扫描

5. 选择报表中的列 VDP_M1VDP_PEMIT

6. 点击选择行

重新检查数据

1. 再次检查“分布”报表。请注意,选定的离群值现在足够远离大多数数据,可以选定它们并从分析中排除它们。

2. 在“分位数范围离群值”报表中,点击排除行

3. 在“分布”报表中,点击“分布”红色小三角并选择重新运行 > 重新运行分析

图 21.4 带有已排除离群值的列的分布 

Distributions of Columns with Outliers Excluded

排除离群值后,所显示的数据分布现在更能够说明问题。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).