图形类型
下面列出了可以在探索性数据分析 (EDA) 中使用的不同类型的图形。点击各个图形即可查看图形的示例、图形所使用的变量数量以及对图形用途的描述。
直方图
并排直方图
- 变量数:2。
- 显示多组数据的形状或分布;可以帮助识别离群值。
图 2:有两个变量的并排直方图
条形图
分组条形图
- 变量数:2 个或更多,取决于使用多少个变量来定义组。
- 显示由另一个变量定义的各组的条形图。分组条形图在分组变量的每个水平内有单独的图表。
图 4:分组条形图
堆叠条形图
- 变量数:2 个或更多,取决于使用多少个变量来定义组。
- 显示由另一个变量定义的各组的条形图。堆叠条形图针对分组变量的每个水平有一个长条。表示另一个变量计数的颜色或图案堆叠在每个长条中。
图 5:针对分组变量的每个水平显示一个长条的堆叠条形图
帕累托图
堆叠填充条形图
- 变量数:1。
- 按变量频数计数的顺序显示。用来代替帕累托图,特别是在有许多分类的情况下。对于强调“少数重要(的信息)”很有用。
- 了解关于堆叠填充条形图的更多信息。
图 7:多个分类按变量频数计数顺序显示的堆叠填充条形图
马赛克图
- 变量数:2 个或更多。
- 显示分类变量之间可能存在的关系。对于查找数据错误(例如分类输入错误)很有用。在 x 轴上显示多个变量的一种特殊类型的堆叠条形图。
- 了解关于马赛克图的更多信息。
图 8:显示分类型变量之间可能存在的关系的马赛克图
树图
箱线图
- 变量数:1。
- 显示数据的分布。方块(箱体)的各部分标识第 25 百分位数、中位数(第 50 百分位数)和第 75 百分位数。视数据而定,须线显示最小值和最大值,以及出现在须线外部的离群值。用于查找数据错误以及探索一个变量。
- 了解关于箱线图的更多信息。
图 10:箱线图
并排箱线图
- 变量数:2 个或更多,取决于使用多少个变量来定义组。
- 显示由另一个变量定义的各组的箱线图。用于查找数据错误以及探索两个或更多变量。
图 11:用于探索两个或多个变量的并排箱线图
正态分位数图
- 变量数:1。
- 确定“变量有正态分布”这个假设是否合理。
图 12:用于确定变量是否有正态分布的正态分位数图
线图
包含分类的线图
- 变量数:2 个或更多,取决于使用多少个变量来定义组。
- 显示由另一个变量定义的各组的多个线图。用于了解多个变量随时间推移的变化以及查找离群值。
图 14:含有分类的线图,用于了解多个变量如何随时间的推移而变化
散点图
- 变量数:2 个或更多,取决于使用多少个变量来定义组的颜色和标记。
- 显示两个变量之间可能存在的关系并确定离群值。为其他变量添加颜色和/或标记有助于进行探索性数据分析。添加参考线或规格限有助于确定离群值。
- 了解关于散点图的更多信息。
图 15:显示两个变量之间可能存在的关系的散点图
散点图矩阵
- 变量数:多个。
- 显示多个变量之间可能存在的关系,观察所有双向组合。可以添加其他图形:为每个变量添加直方图来确定离群值,为每个散点图添加密度椭圆来确定多维度的离群值,添加相关性热图来清晰地呈现可能的关系。
图 16:显示多个变量之间可能存在的关系的散点图矩阵
饼图
- 变量数:1 个或更多。
- 显示变量部分与整体的关系。为多个饼图添加分类比单个饼图更有用。对于单个变量,条形图更容易区分值之间的细微差异。
- 了解关于饼图的更多信息。
图 17:显示变量的部分与整体关系的饼图
热图
茎叶图
- 变量数:1。
- 显示数据的形状并确定离群值。在计算机出现之前使用较广泛;现在更常用直方图。
图 19:显示数据的形状并确定离群值的茎叶图