散点图
散点图显示关系
散点图将一个变量放在 x 轴上,将另一个变量放在 y 轴上,以此来显示两个连续型变量如何相关。
回归的散点图在 y 轴上包含响应变量,在 x 轴上包含输入变量。
散点图示例
示例 1:递增关系
图 1 中的散点图显示了递增关系。x 轴显示公司的员工人数,y 轴显示公司的利润。该散点图显示,随着员工人数的增加,利润也会增加。员工人数较少的公司(在图形左侧)利润较低,员工人数较多的公司利润较高。这是一个非常简单的示例,因为有许多变量会影响公司的利润。
示例 2:递减关系
图 2 中的散点图显示了递减关系。x 轴显示某加工肉的含钠克数;y 轴显示每千克蛋白质的成本。该散点图揭示,随着钠含量的增加,蛋白质成本会下降。钠含量较低的肉(图形左侧)蛋白质成本较高,而钠含量较高的肉蛋白质成本较低。这是有依据的,因为可以向低质量(因而成本较低)的肉中添加盐来改善其味道,这会增加钠含量。
示例 3:不相关
图 3 中的散点图显示两个变量之间没有关系。x 轴显示预洗牛仔布纤维的载荷大小;y 轴显示测量的线磨损情况。该散点图显示了随机点云图。虽然有人可能会看到,随着载荷大小向右沿着图形增加,线磨损情况略有减少,我们可以使用简单线性回归来验证这种想法。
示例 4:曲线关系
图 4 中的散点图显示了两个变量之间的曲线关系。x 轴显示一组国家/地区的人口出生率;y 轴显示人口死亡率。散点图显示,在出生率达到 25 至 30 之前,两个变量呈递减关系。在达到这个点之后,变为递增关系。
示例 5:散点图中的离群值
数据中的异常点(即离群值)在散点图中往往非常突出。
图 5 显示了含有离群值的散点图,图 6 显示了相同数据不含离群值的散点图。位于右上角的单个离群值会影响数据在散点图中的可视化。当散点图中包含异常数据点时,您可以调查数据,以找出出现离群值的原因。您可以显示包含离群值和不含离群值的数据。
定制散点图
可以使用颜色和标记向散点图中添加其他变量的详细信息,以及用于指示规格限等元素的参考线。
使用颜色和标记
图 7 显示了 116 种轿车型号的重量与马力的散点图。
从这个简单的图形中,我们看到了递增关系。较重的轿车有较大的马力;较轻的轿车有较小的马力。
轿车的原产国被指定为美国、日本或其他国家/地区,轿车的类型被指定为运动型、紧凑型、小型、中型或大型。对这两个变量使用颜色和标记可以增强基本散点图。
图 8 中的散点图使用颜色来区分代表原产国的 3 个值的数据点。
我们可以很清晰地看到,马力大于225的轿车产自日本或美国。马力最小的轿车中不包含产自美国的任何轿车。
还可以为不同类型的轿车添加不同的标记。
马力大于或等于 200 的轿车要么是中型车,要么是运动型,以正方形和圆形来显示。马力最小的轿车都是小型轿车,用上三角形来显示。所有轿车中最重的一辆是美国制造的大型轿车,以图表最上方的绿色菱形来表示,但这辆轿车的马力一般。
您可以利用您的数据探索更多,使用颜色、标记,或者同时使用两者,向散点图中添加维度的考量。
添加参考线
向散点图中添加参考线很有用。假设我们需要知道哪些轿车不能驶过限重 4,000 磅的老旧木桥。图 10 中的散点图现在有一条参考线,以及说明其相关性的注解。
图 11 显示了相同的散点图,但是对不能驶过老旧木桥的 4 种轿车添加了标签。
添加规格限
很多情况下,变量都设有规格限。使用图 2 中“肉”的数据,学校食堂采购人员被规定所采购的肉需要至少含有 300 克钠、最好含有 450 克钠、最多含有 600 克钠。图 12 显示了这些规格限相关的散点图。
添加了这些线条后,很容易就可以看出,4 种类型的加工肉不能为食堂所采购。如图 13 中所示,可以为这些点添加标签和颜色,以提供更多的详细信息。采购人员可以分享这个图形来说明为何不能选购某些肉。
散点图矩阵
散点图矩阵可以显示多个变量如何相关。绘制了变量所有双向组合后,该矩阵可以显示变量之间的关系,以突出显示哪些可能是重要的关系。此矩阵还能识别多个散点图中的离群值。
图 14 显示了不同轿车型号数据的散点图矩阵。该散点图使用了与图 9-11 相同的颜色和标记。最左侧那一列中的第 1 个散点图显示了“重量”与“转弯半径”之间的关系。矩阵的上三角形和下三角形互为镜像。
该矩阵还显示了代表“位移”的直方图中可能的离群值。
我们甚至可以使用 JMP 向矩阵中添加更多的信息,例如,为每个散点图添加密度椭圆,以便查看多个维度中的离群值。图 16 显示了在一个散点图中选中离群值会如何在其他散点图中突出显示该值。
图 16 中的散点图矩阵显示了每个独立散点图中的密度椭圆。红色圆圈包含大约 95% 的数据。可以探索圆圈之外的点,看看它们是否为多元离群值。图 16 中,被选中的蓝色圆点代表基于“重量与转弯半径”绘制的散点图中的离群值。这个点也是其他某些散点图中的离群值,但不是所有散点图中的离群值。在“位移与马力”图中,这个点在密度椭圆的中间突出显示。
取消选择这个点后,所有的点都将以相同的亮度显示,如图 17 中所示。从代表“位移与马力”散点图的密度椭圆中可以看出,可能出现离群值的原因显示在代表“位移”的直方图中。在散点图右侧,有多个点位于椭圆之外。颜色显示所有这些点都来自美国制造的轿车,而标记则显示轿车是运动型、中型或大型。对颜色和标记加以说明的注解可以进一步增强散点图矩阵的功能。
您可以利用您的数据,使用散点图矩阵来同时探索多个变量。
散点图和数据类型
连续型数据:适合使用散点图
散点图对连续型数据很适合,因为这些数据是在具有许多可能值的尺度上进行衡量的。以下是连续型数据的一些示例:
- 寿命
- 血压
- 权重
- 温度
- 速度
分类型或名义型数据:使用条形图
对于分类型或名义型数据,散点图不是最佳选择,因为这些数据是在具有特定值的尺度上进行衡量的。请改用条形图。
对于分类型数据,样本会分成多个组,并且响应可能有定义好的顺序。例如,在一项调查中,要求您从“强烈不同意”到“强烈同意”这样的范围来提供意见,您的响应就是分类型的。
对于名义型数据,样本也分成多个组,但没有任何特定的顺序。例如,居住的国家/地区就是名义型变量。您可以使用国家/地区缩写,也可以使用数字对国家/地区名称编码。无论采用哪一种方式,您都只是在为不同的数据组命名而已。
您可以使用类别型或名义型变量来定制散点图。您可以将不同的颜色或标记分配给这些变量的各个水平。