热图

什么是热图?

热图使用颜色来显示二维图中第三个变量的变化和量级。

如何使用热图?

热图用于帮助显示模式和变化。虽然它们可用于显示随时间推移的变化,但热图并不是为了进行详细的分析。

热图显示关系和变化

热图是一种由多个长方形构成的排列。x 轴常常是某个时间度量值,但也可以是任何有分组的变量。y 轴是在数据中定义分类的变量。每个长方形大小相同,这与矩形树图不同。这些长方形是有颜色的,用于显示第三个变量的量级。虽然热图最初用于温度数据,但现在可用于许多类型的数据。

热图对大型数据集而言很有作用。含有时间轴的热图可用于查看随时间推移的模式和变化。您可以对热图中的长方形标注颜色变量的值,这仅在 y 轴上有很少分类的情况下有用。

图 1 显示了一年中各周美国 3 个机场最高温度的热图。右侧的图例说明长方形的颜色。JMP 基于数据对热图进行缩放和着色。

图 1:按一年各周显示的美国 3 个机场最高温度的热图

图 1 中的图形显示了热图的基本概念。最冷的月份在冬季,最热的月份在夏季。

图 2 显示添加了标签的热图。

图 2:含有标签的热图

软件会对标签自动着色,使其在不同颜色的长方形背景下可以阅读。可以看到,含有较多长方形的热图无法显示看得见的标签。

热图示例

示例 1:温度和机场

图 3 通过显示数据集中的所有机场对基本热图进行了扩展。

图 3:含有所有机场的热图

在图 3 中,我们再次看到,最高温度在冬季较低,在夏季较高。因为机场是按照纬度从高到低排序的,所以我们可以看到,在全年范围内,北方的机场一般比南方的机场凉爽。我们还可以看到,缺失的数据以白色单元格表示。

将这个热图与仅显示 3 个机场的图 1 进行比较。JMP 会基于用于对热图数据着色的变量的范围,对热图进行自动地缩放和着色。因此,第一个热图中的 3 个机场的颜色与它们在图 3 中的颜色不同,后者包含了所有数据。

示例 2:随时间推移的人口变化

热图可用于许多类型的数据。图 4 中的热图显示了美国不同地区一个世纪以来的人口变化。

图 4:按地区显示随时间推移的人口变化的热图

 

此热图显示,在过去的一个世纪中,某些地区的人口几乎没有变化。阿拉斯加和夏威夷在热图中未显示颜色变化。南大西洋各州随着时间的推移人口变化最大。

示例 3:有大型数据集的航空公司延误时间

热图对在大数据集中查看模式最有帮助。图 5 中的图形汇总了来自 29,000 多个航班的数据。热图显示了 6 家航空公司的平均到达延误时间。长方形由 y 轴上的月份和 x 轴上的日期定义。

图 5:按月和日显示的航空公司到达延误时间的热图

从热图的颜色中,我们可以看出,夏季月份和 12 月的平均延误时间最长。我们还可以看到少量表示缺失数据的白色单元格,特别是少于 31 天的那些月份,这意味着这些日期没有航班。

合并大数据集时要特别小心谨慎。在某些情况下,有另一个变量会对热图产生重大影响。对于航空公司延误数据,热图因航空公司而异。图 6 中的图形显示了关于西南航空和美国航空的热图。

图 6:美国航空和西南航空延误时间的热图

虽然关于这两家航空公司的热图仍显示在夏季和 12 月有较多的延误,但两家航空公司有不同的倾向。西南航空总体上比美国航空的延误要少一些。为大型数据集构建热图时,需要考虑另一个变量是否会对热图产生影响。

示例 4:相关性矩阵

想要了解多个变量之间的关系时,热图也很有用。JMP 在一个散点图矩阵中为变量之间的配对相关性添加了热图。图 7 显示了关于澳大利亚旅游业多个变量之间的双向散点图。矩阵的上三角形显示了变量对之间的相关性热图。

图 7:相关性矩阵

从这个热图中,我们可以看到,床位空余与酒店员工人数以及客人住宿的平均时长呈负相关性,与其他所有变量呈正相关性。