直方图

什么是直方图?

直方图显示连续型变量值的形状,即分布。

如何使用直方图?

直方图可帮助您了解数据集的中心、分布范围和形状。您还可以使用它们作为直观的工具来检查数据的正态性。直方图是统计质量控制中七种基本的工具之一。

需要考虑哪些因素?

直方图为评估数据提供了一种很好的方法。它们可用于检查数据中是否存在极端值(即离群值),还可以帮助分析人员了解数据的分布。选择适当的统计分析工具时,了解变量的分布十分重要。

直方图显示数据的形状

直方图显示数据的形状。水平轴显示数据值,其中每个条形都包含一个值范围。垂直轴显示有多少个数据点的值落在条形的指定范围内。在图 1 中的直方图中,条形显示每个范围内的值计数。例如,第一个长条显示落在 30 与 35 之间的值计数。

此直方图显示,数据的中心在 45 附近,数据散布的范围大约在 30 至 65 之间。它还显示,数据的形状大致呈山丘形。这种形状是一种直观的线索,说明数据可能符合正态分布。

图 1:直方图

直方图与条形图之间有何差异?

直方图与条形图之间最重要的差异是所绘制的数据的类型。直方图用于连续型数据,而条形图用于分类型或名义型数据。

直方图的条形之间没有间距。条形代表在水平轴上指定的范围内出现的值的数量。条形图的条形之间可以有间距。条形代表每个类别的测量值。

如何创建直方图?

要生成直方图,必须确定每个条形的数据值范围。条形的范围称为箱。大多数时候,箱的大小相等。在箱大小相等的情况下,条形高度显示每个箱中数据值的频数。例如,要创建关于年龄的直方图,您可以按十年(0-10、11-20 等等)为区间来确定箱。然后,条形高度显示每个十年区间中的人数。

使用软件时,箱是由程序定义的。但有些软件允许您更改箱的数量和起始点,以便您更好地探索和了解数据。

图 2 显示的数据与图 1 中相同,但条形数量明显更多。您仍可以看到数据的中心点、分布范围和形状。但与第一张图相比,更不容易看到总体形状。

 

图 2:基于图1,并包含更多条形的直方图

图 3 显示的数据与图 1 相同,但只有 3 个条形,即箱。这种情况下,明显更难看到数据的中心点、形状和分布范围。

图 3:基于图1,并包含更少条形的直方图

下图的动画显示了如何使用 JMP 及其抓手工具,针对图 1-图3 中显示的数据,来探索不断变化的箱的边界。

图 4:显示 JMP 中交互式的箱调整工具的动画。

即使软件无法让您以交互式的方式探索数据,您可能需要更改数轴值和数轴增量来探索数据。

如何在直方图观测极值数据?

直方图会受极值(即离群值)的影响。图 5 和图 6 分别显示了排除和包含离群值的数据集。

图 5:显示无离群值的直方图
图 6:显示有离群值的直方图

在上图中,两个直方图都包含了 20 至 90 的水平轴范围。大多数软件都会在较小的尺度上显示没有离群值的直方图。图 6 使用相同的尺度来显示离群值如何出现在直方图中,它高于其余的数值。离群值也可能低于其余的数值,或者离群值也可能位于数据的两端。

如何在直方图中观察偏态?

并非所有的直方图都是对称的。直方图显示数据的分布,并且有许多常见的分布类型。例如,数据常常是不对称的。在统计学中,这称为偏态数据。例如,某些手机的电池寿命要远远高于大多数手机,因此手机电池寿命常常呈偏态分布。

图 7:显示几乎对称的数据的直方图
图 8:显示左(负)偏态数据的直方图
图 9:显示右(正)偏态数据的直方图

图 7 显示了几乎对称的数据。如果您在中点处将图对折,则两侧大致相同。

图 8 中的直方图显示了不对称的数据。它是左偏态的,数值有一个较长的左尾拖向左侧。偏度统计量是负值。

图 9 中的直方图也显示了不对称的数据。它是右偏态的,数值有一个较长的右尾拖向右侧。偏态统计量为正值。

如何在直方图中观测数据中的组?

如果您知道数据中有多个分组,为每个组构建直方图可能比构建单个直方图更有意义。但是,如果您不确定或不知道是否存在多个组,直方图可能会揭示一个模式,引导您发现数据中的组。

例如,图 10 中的图形包含男性和女性的数据。我们认为,男性与女性的数据可能存在差异。

图 10:显示多组数据的直方图

此图形显示,数据大致呈山丘型,数据中心点在 22 附近,分布范围大约是 7 至 32。

图 11 通过每个条形中有条纹的部分突出显示了男性的数据。男性的数据看起来大致呈山丘型。

图 11:来自图 10 并突出显示男性数据的直方图

图 12 中的图形通过有条纹的条形突出显示了女性的数据。这些数据看起来也大致呈山丘型。

图 12:来自图 10 并突出显示女性数据的直方图

上面的图形通过示例说明了两组之间的差异会产生影响,但两组数据的总体分布范围相同。当我们将针对男性和女性突出显示的直方图进行比较时,可以看到,男性的数值很可能比女性的数值低。有许多重叠部分,但直方图证实了男性与女性之间存在差异这种想法。

图 13 显示了有巨大差异的两组数据。如果您查看总体直方图,数据不是呈山丘型。图形通过有条纹的条形突出显示了一组的数据。这组数据大致呈山丘型,分布范围大约是 5 至 15,中心点大约是 9。该图形通过实心长条显示了第二组的数据。它并非大致呈山丘型,分布范围大约是 20 至 32,中心点大约是 23。

图 13:显示每组数据值有显著差异的直方图

这些图形有助于确定一个重要的考量因素:在创建直方图时,需要注意数据中是否存在分组。如果可能存在分组,您将要为每个组创建单独的直方图,以便进一步了解数据。基于软件,您可以在单个直方图中探索组间差异,如上面的那些图中所示。

直方图和数据类型

连续型数据:适合使用直方图

直方图对连续型数据比较适合,因为它们是在具有许多可能的数值范围上进行测量的。以下是连续型数据的一些示例:

  • 年龄
  • 血压
  • 体重
  • 温度
  • 速度

对于所有这些示例,直方图都是用于探索数据分布最适合的图形工具。

分类型或名义型数据:使用条形图

直方图对分类型或名义型数据不太适用,因为它们是在仅有少量可能的值范围上进行测量的。这时,可使用条形图来代替直方图。

对于分类型数据,样本常常被分成多个组,并且响应有特定的排序。例如,在一项调查中,要求您从“强烈不同意”到“强烈同意”这样的跨度区间来提供意见,您的响应就是分类型数据。

对于名义型数据,样本也被分成多个组,但没有任何特定的排序。例如,居住的国家/地区就是名义型变量。您可以使用国家/地区缩写,也可以使用数字对国家/地区名称编码。无论采取哪种方式,您都只是在为不同的数据组命名而已。