预测和专业建模 > 建模工具 > “探索离群值”实用工具 > “探索离群值”实用工具的示例
发布日期: 04/13/2021

“探索离群值”实用工具的示例

Probe.jmp 样本数据表包含对 5800 个半导体晶片测量的 387 个特征(响应列组)。批 ID晶片编号列唯一标识晶片。您关注的是:标识数据集中选定的一组列内的离群值。使用“探索离群值”实用工具可标识离群值,随后可使用“分布”平台检查这些离群值。

1. 选择帮助 > 样本数据库并打开 Probe.jmp 样本数据表。

2. 选择分析 > 筛选 > 探索离群值

3. 从列 VDP_M1 一直选择到 VDP_SICR,然后点击 Y,列。应已选定 14 列。

图 20.2 探索离群值启动窗口 

Explore Outliers Launch Window

4. 点击确定

5. 点击分位数范围离群值

“分位数范围离群值”报表显示每列并列出找到的离群值的数量和标识。

6. 在“分位数范围离群值”报表中,选中名为仅显示带离群值的列的复选框。这会将列列表限定为仅包含离群值的那些列。

请注意,有若干列包含离群值 9999。许多行业都将 9999 用作缺失值代码。

7. 在“9999”报表中,选择每列。

8. 点击将最高 9999 添加至缺失值代码

会有一条 JMP 警示提醒您应该使用另存为命令保留原始数据。

9. 点击确定

10. 在“分位数范围离群值”报表中,点击重新扫描

11. 选中名为将搜索限制为整数的复选框。

在多数使用连续数据的情况下,整数值往往是错误代码或其他编码数据值。请注意,该组列中未包含其他错误代码。

12. 取消选择将搜索限制为整数

检查数据

1. 选择“分位数范围离群值”报表中其余所有列。

2. 点击选择行

3. 选择分析 > 分布

4. 将选定列分配到 Y,列角色。由于您在“分位数范围离群值”报表中选定了这些列名,所以它们在“分布”启动窗口中已然处于选定状态。

5. 点击确定

图 20.3 带有已选定离群值的列的分布 

Distribution of Columns with Outliers Selected

在列 VDP_M1VDP_PEMIT 中,请注意选定的离群值与大多数数据有些接近。对于其余列,选定的离群值足够远离大多数数据,所以可以从分析中排除。

精简排除的离群值

1. 在“分位数范围离群值”报表中,按住 Ctrl 并取消选择列 VDP_M1VDP_PEMIT

2. 在选定报表中其余列的情况下,点击排除行

3. 将 Q 改为 20。

4. 点击重新扫描

5. 选择报表中的列 VDP_M1VDP_PEMIT。点击选择行

重新检查数据

1. 再次检查“分布”报表。请注意,选定的离群值现在足够远离大多数数据,可以选定它们并从分析中排除它们。

2. 在“分位数范围离群值”报表中,点击排除行

3. 在“分布”报表中,点击“分布”红色小三角并选择重新运行 > 重新运行分析

图 20.4 带有已排除离群值的列的分布 

Distributions of Columns with Outliers Excluded

排除离群值后,所显示的数据分布现在更能够说明问题。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).