探索性数据分析

什么是探索性数据分析?

探索性数据分析 (EDA) 涉及到使用图形和可视化显示来探索和分析数据集。其目标是探索、调查和了解信息,而不是确认统计假设。

何时使用探索性数据分析?

探索性数据分析是用于探索数据集的一种强大的方法。即使您的目标是执行计划的分析,也可以使用 EDA 进行数据清理、子组分析或仅仅是更好地理解数据。在任何数据分析中,一个重要的初始步骤都是对数据进行绘图。

定义探索性数据分析

使用数值型汇总和可视化显示来探索数据并识别变量之间潜在关系的过程称为探索性数据分析,即 EDA。

探索性数据分析是一个探索过程,在这个过程中,使用汇总统计量和图形工具来认识数据,并了解您可以从数据中获得的信息。

可以使用 EDA 来发现数据中的异常情况(例如离群值或异常观测值),发现模式,了解变量之间的潜在关系,以及提出有趣的问题或假设,之后还可以使用更加正式的统计方法来进行检验。

探索性数据分析类似于探测性的工作:帮助您寻找能够确定所需要解决的问题的潜在根本原因的线索和见解。一次探索一个变量,一次探索两个变量,然后一次探索多个变量。

虽然 EDA 包含均值和标准差等汇总统计量的表格,但大多数人还是关注图形。您使用各种图形和探索性工具,并且由数据引导您的分析。如果一个图形或分析无法提供有用信息,您将从另一个角度来研究数据。

因为 EDA 涉及到探索,所以它是一个迭代的过程。您可能会从不同的图形中了解到数据的各个方面。典型的分析目标是了解:

  • 数据集中变量的分布。即,数据的形状是什么?分布是否为偏态型?丘形分布?双峰型?
  • 变量之间的关系
  • 数据有没有离群值或异常的点(这可能表示数据质量有问题,或可以据此提出更深刻的见解)。
  • 数据有没有随时间推移的模式