使用离群值箱线图(亦称 Tukey 离群值箱线图)可以查看分布并标识可能的离群值。通常,箱线图显示连续分布的选定分位数。
图 3.8 离群值箱线图
请注意关于离群值箱线图的以下方面:
• 箱中的水平线表示样本值中位数。
• 置信菱形包含均值以及均值的 95% 上限和下限。若横穿菱形中部绘制一条线就会得到均值。菱形的高点和低点分别表示均值的 95% 上限和下限。
• 箱的两端分别表示第 25 分位数和第 75 分位数,也表示为第一和第三四分位数。
• 第一和第三四分位数之间的差值称为四分位间距。
• 箱的两端延伸出有时称为须线的线条。须线从箱的两端延伸到如下距离内的最远数据点,这些距离计算如下:
第一四分位数 - 1.5*(四分位间距)
第三四分位数 + 1.5*(四分位间距)
若数据点未达到计算范围两端,则由这些数据点的高值和低值(不包括离群值)来确定须线。
• 箱外部的方括号标识最短半集,这是最密集的 50% 的观测 (Rousseeuw and Leroy 1987)。
• 要从离群值箱线图中删除对象,请参见删除离群值或分位数箱线图中的对象。