Probe.jmp 样本数据表包含对 5800 个半导体晶片测量的 387 个特征(响应列组)。批 ID 和晶片编号列唯一标识晶片。您关注的是:标识数据集中选定的一组列内的离群值。使用“探索离群值”实用工具可标识离群值,随后可使用“分布”平台检查这些离群值。
1. 选择帮助 > 样本数据库并打开 Probe.jmp 样本数据表。
2. 选择分析 > 筛选 > 探索离群值。
3. 从列 VDP_M1 一直选择到 VDP_SICR,然后点击 Y,列。应已选定 14 列。
图 20.2 探索离群值启动窗口
4. 点击确定。
5. 点击分位数范围离群值。
“分位数范围离群值”报表显示每列并列出找到的离群值的数量和标识。
6. 在“分位数范围离群值”报表中,选中名为仅显示带离群值的列的复选框。这会将列列表限定为仅包含离群值的那些列。
请注意,有若干列包含离群值 9999。许多行业都将 9999 用作缺失值代码。
7. 在“9999”报表中,选择每列。
8. 点击将最高 9999 添加至缺失值代码。
会有一条 JMP 警示提醒您应该使用另存为命令保留原始数据。
9. 点击确定。
10. 在“分位数范围离群值”报表中,点击重新扫描。
11. 选中名为将搜索限制为整数的复选框。
在多数使用连续数据的情况下,整数值往往是错误代码或其他编码数据值。请注意,该组列中未包含其他错误代码。
12. 取消选择将搜索限制为整数。
1. 选择“分位数范围离群值”报表中其余所有列。
2. 点击选择行。
3. 选择分析 > 分布。
4. 将选定列分配到 Y,列角色。由于您在“分位数范围离群值”报表中选定了这些列名,所以它们在“分布”启动窗口中已然处于选定状态。
5. 点击确定。
图 20.3 带有已选定离群值的列的分布
在列 VDP_M1 和 VDP_PEMIT 中,请注意选定的离群值与大多数数据有些接近。对于其余列,选定的离群值足够远离大多数数据,所以可以从分析中排除。
1. 在“分位数范围离群值”报表中,按住 Ctrl 并取消选择列 VDP_M1 和 VDP_PEMIT。
2. 在选定报表中其余列的情况下,点击排除行。
3. 将 Q 改为 20。
4. 点击重新扫描。
5. 选择报表中的列 VDP_M1 和 VDP_PEMIT。点击选择行。
1. 再次检查“分布”报表。请注意,选定的离群值现在足够远离大多数数据,可以选定它们并从分析中排除它们。
2. 在“分位数范围离群值”报表中,点击排除行。
3. 在“分布”报表中,点击“分布”红色小三角并选择重新运行 > 重新运行分析。
图 20.4 带有已排除离群值的列的分布
排除离群值后,所显示的数据分布现在更能够说明问题。