箱线图
什么是箱线图?
箱线图显示连续型变量的数据分布。
如何使用箱线图?
箱线图可帮助您查看数据的中心和散布范围。您还可以使用箱线图作为直观的工具来检查正态性或识别可能是离群值的点。
箱线图与盒须图是否相同?
是的。箱线图也可以称为离群值箱线图或分位数箱线图。每一种都是箱线图绘制方法的变异。
要考虑哪些问题?
使用箱线图时,请检查数据有没有极端值。如果数据集很小,就要十分谨慎。如果您有分类型或名义型变量,请改用条形图。
箱线图显示数据的分布
“箱线图”这个术语指的是离群值箱线图;这种图也称为盒须图或 Tukey 箱线图。请参考下面的“比较离群值与分位数箱线图”部分来了解另一种类型的箱线图
以下是箱线图的基本组成部分:
- 方块中的中心线显示数据的中位数。一半的数据高于此值,一半的数据低于此值。如果数据是对称的,中位数将位于方块的中心。如果数据是偏态的,中位数将更接近方块的顶部或底部。
- 方块的底部和顶部显示第 25 分位数和第 75 分位数,即百分位数。这两个分位数也称为四分位数,因为每一处会“切割”掉四分之一 (25%) 的数据。方块的长度是这两个百分位数之间的差异,被称为四分位数间距 (IQR)。
- 从方块中延伸出来的线条称为须线。须线代表数据的期望变异。须线从方块的顶部和底部延伸1.5倍的 IQR。如果数据没有延伸到须线的末尾,那么须线会延伸到最小数据值和最大数据值。如果有值落在须线末尾的上方或下方,它们将被绘制为点。这些点常常称为离群值。离群值比期望的变异更极端。有必要复查这些数据点,以确定它们是离群值还是错误值;须线不包括这些离群值。
图 1 显示了箱线图:
比较箱线图和直方图
箱线图和直方图都显示数据的形状。二者都可用于识别异常的点,即离群值。图 3 显示了相同数据集的离群值箱线图和直方图。在这个示例中,直方图是垂直的,而不是水平的。
您会发现,对数据同时使用这两种类型的图形很有帮助。箱线图可帮助您查看偏态,因为如果数据是偏态的,代表中位数的那条线将不会接近方块的中心。箱线图比直方图能更好地识别第 25 和第 75 百分位数,而直方图比箱线图能更好地查看数据的总体形状。
如何创建箱线图?
过去,箱线图是手动创建的。如今,大多数人都使用软件来创建箱线图,从而避免了手动计算并减少了错误。箱线图基于所谓的 5 数汇总,它们是数据集中的最小值、第 25 百分位数、中位数、第 75 百分位数和最大值。有了这 5 个数字,您就可以创建箱线图了,这意味着,对于任何给定的数据集,您都可以分 5 个步骤来生成箱线图:
- 计算中位数、第 25 百分位数和第 75 百分位数。
- 计算四分位间距 (IQR),即第 75 百分位数与第 25 百分位数之间的差异。
- 将 IQR 乘以 1.5 计算须线的最大长度。
- 识别离群值。
- 使用计算的统计量来绘制结果并绘制箱线图。
箱线图示例
下面箱线图中的谷物数据显示了 76 种谷物类型中每份谷物的卡路里测量结果。“卡路里”这个变量是连续型的,因此箱线图是有意义的。
该数据是偏态的,因为中位数 102 明显更接近第 25 百分位数 101,而不是接近第 75 百分位数 200。
向箱线图中添加均值
可以借助软件来增强箱线图的功能。JMP 可以添加均值菱形,如图 5 中所示。菱形的顶部和底部是均值的 95% 置信区间。菱形的中间是样本平均值,它是总体均值的估计值。
对于谷物数据,均值高于中位数。均值与中位数之间的差异告诉您,这些数据是偏态的,不太可能来自于正态分布。
您还可以使用 JMP 向图形中添加功能。图 6 中的箱线图显示,均值菱形的中间添加了一条深绿色的线条,这有助于显示均值与中位数之间的差异。
JMP 还提供了注解工具,如图 7 中所示:
该图形汇总了关于卡路里的基本统计量并显示了数据的分布,它突出显示了数据是偏态的,并且数据不来自于正态分布。
箱线图 - 突出显示离群值
箱线图可帮助您识别感兴趣的数据点,即离群值。这些值被绘制为数据点,并且落在须线外部。图 8 显示了有 3 个离群值的箱线图,以须线之上的红点表示。这 3 个点超过了 1.5 倍 IQR。超过 1.5 倍 IQR 的点就超过了期望的数据变异范围。
离群值会影响均值、中位数以及其他百分位数。因为极值的点在箱线图中是突出显示的,所以您很容易识别这些数据,以便进行调查。您可能会发现,离群值是数据中的错误,或者,您也可能会发现,出于某些其他原因,离群值是异常的。例如,如果图 8 中的 3 个离群值在期望的值范围之外,您将需要确定它们是否为有效的数据。
有多组数据的箱线图示例
如果数据有多个组,您可以创建并排箱线图来进一步了解数据,这种箱线图可以提供简单易用且功能强大的工具来比较各组数据。
测量体脂百分比是衡量一个人健康状况的一种方法。大多数指导原则都认为男性与女性的体脂之间存在差异。(如需了解关于此数据的更多信息,请参考双样本 t 检验页面。)“体脂”这个变量是连续型的数据,因此箱线图可以很好地显示数据的分布。图 9 显示了分别代表男性和女性的并排箱线图。
从这个图形中,您可以看到,男性的体脂中位数低于女性。您还可以看到,男性与女性的数据范围有重叠。男性的数据比女性的数据偏度更大。两组都没有离群值。您可以使用 JMP 向这些箱线图中添加均值菱形、代表每个均值的线条以及注解。
对多个组分别使用并排箱线图有助于显示组差异和识别离群值。
箱线图和数据类型
连续型数据:适合使用箱线图
箱线图对连续型数据很适用,因为它们是在具有许多可能值的尺度上进行衡量的。以下是连续型数据的一些示例:
- 年龄
- 血压
- 体重
- 温度
- 速度
对于所有这些示例,箱线图都是用于探索数据分布最适合的图形工具。
分类型或名义型数据:使用条形图
箱线图对分类型或名义型数据没有意义,因为它们是在具有特定值的尺度上进行衡量的。请改用条形图。
对于分类型数据,样本常常分成多个组,并且响应可能有已定义的顺序。例如,在一项调查中,要求您从“强烈不同意”到“强烈同意”这样的评价区间来提供意见,您的响应就是分类型数据。
对于名义型数据,样本也分成多个组,但没有任何特定的顺序。例如,居住的国家/地区就是名义型变量。您可以使用国家/地区缩写,也可以使用数字对国家/地区名称编码。无论采用哪一种方式,您都只是在为不同的数据组命名而已。