“探索离群值”工具提供四个不同选项来标识、探索和管理离群值。探索和了解数据中的离群值是分析中的重要组成部分。数据中之所以出现离群值可能是因为:数据收集或报告出错、测量系统失效、在数据集中包含了错误或缺失值代码,或只是异常值。离群值的存在可能会使估计值失真,使结果向这些离群值偏倚。
离群值还会增大样本方差。不过有时保留数据中的离群值也是有必要的,删除它们会低估样本方差,让数据朝着反方向偏倚。
无论是删除还是保留离群值,最好都要找到这些离群值。可通过很多方式直观检查离群值。例如,箱线图、直方图和散点图就很容易显示这些极值。请参见《发现 JMP》中的数据可视化。
“探索离群值”工具提供以下选项:
一元
可通过两个选项来探索一元数据中的离群值。
分位数范围离群值
使用每列的分位数分布将离群值标识为极值。该工具适用于发现数据中的缺失值或错误代码。开始探索数据中的离群值时推荐使用该方法。请参见分位数范围离群值。
稳健拟合离群值
查找每列的中心和散度的稳健估计值,将远离这些值的数据点标识为离群值。请参见稳健拟合离群值。
多元
可通过两个选项来探索多元数据中的离群值。
稳健 PCA 离群值
将数据分解为低秩矩阵和残差,并使用残差检测离群值。请参见稳健 PCA 离群值。
K 最近邻离群值
将离群值标识为远离其 k 最近邻的值。请参见K 最近邻离群值。