探索的データ分析

探索的データ分析とは?

探索的データ分析(EDA)では、グラフィックスや視覚化を利用して、データセットを探索および分析します。目標は探索、調査、学習することで、統計的仮説を検証することではありません。

いつ使用しますか?

探索的データ分析は、データセットを探索するための強力な方法です。計画された分析の実行が目標である場合でも、探索的データ分析は、データのクリーニング、サブグループ分析、または単にデータをよりよく理解するために利用されます。データ分析における重要な最初のステップは、データをプロットすることです。

探索的データ分析の定義

数値の要約と視覚化を使用してデータを探索し、変数間の潜在的な関係を特定するプロセスを、探索的データ分析(EDA)と呼びます。

探索的データ分析の調査プロセスでは、要約統計量およびグラフ化ツールを使用して、データを把握し、そこから何が得られるかを理解します。

探索的データ分析を用いて、外れ値や異常な観測値などのデータの異常を見つけ、パターンを明らかにし、変数間の潜在的な関係を理解することができます。また、より正式な統計手法を使用して後で検定できるような、興味深い問いや仮説を生み出すことができます。

探索的データ分析は探偵の仕事に似ています。解決しようとしている問題の、潜在的な根本原因の特定につながるような手がかりや洞察を探します。一度に一変数、次に一度に二変数、それから一度に複数の変数を探索します。

探索的データ分析は、平均や標準偏差などの要約統計量の表を含みますが、ほとんどの人はグラフに注目します。様々なグラフと探索ツールを使用して、データが導くところに進みます。1つのグラフや分析が参考にならない場合は、別の観点からデータを眺めます。

探索的データ分析には探索が含まれるため、反復的です。さまざまなグラフから、データに関するさまざまな側面について知ることができるでしょう。典型的な目標は次のようなことを理解することです。

  • データセット内の変数の分布。つまり、データはどんな形をしていますか?歪んだ分布ですか?山型分布ですか?それとも二峰性分布ですか?
  • 変数間の関係
  • データの品質の問題を示すか、もしくは興味深い洞察を導くような、外れ値や異常値がデータに含まれているかどうか。
  • データに経時的なパターンがあるかどうか。