グラフの種類

以下は、探索的データ分析(EDA)で使用できる、いくつかの種類のグラフのリストです。それぞれをクリックすると、その種類のグラフの例、グラフが使用する変数の数、およびその目的に関する説明が表示されます。

ヒストグラム

  • 変数の数:1。
  • データの形状または分布を表示します。外れ値を特定するのに役立つ場合があります。
  • ヒストグラムの詳細はこちら。
図1:ヒストグラム

横並びのヒストグラム

  • 変数の数:2。
  • グループごとのデータの形状または分布を表示します。これは外れ値を特定するのに役立つ場合があります。
図2:2つの変数を持つ横並びのヒストグラム

棒グラフ

  • 変数の数:1。
  • カテゴリカル変数の値の頻度数を表示します。縦方向(下の図3に示す)または横方向の場合があります。
  • 棒グラフの詳細はこちら。
図3:度数を表した棒グラフ

グループ分けされた棒グラフ

  • 変数の数:2つ以上。グループの定義に使用される変数の数に依る。
  • 別の変数で定義されたグループごとに棒グラフを表示します。グループ分けされた棒グラフには、グループ変数の各水準ごとに個別のグラフがあります。
図4:グループ分けされた棒グラフ

積み重ね棒グラフ

  • 変数の数:2つ以上。グループの定義に使用される変数の数に依る。
  • 別の変数で定義されたグループごとに棒グラフを表示します。積み重ね棒グラフには、グループ変数の水準ごとに棒が1つあります。別の変数の度数の色またはパターンが各棒に積み重ねられます。
図5:グループ変数の水準ごとに棒を1つ表示した積み重ね棒グラフ

パレート図

  • 変数の数:1。
  • 変数の頻度数を降順に表示します。「重要な少数(vital few)」を強調するのに役立ちます。棒グラフの一種であるパレート図には、累積パーセント曲線がよく含まれます。
  • パレート図の詳細はこちら。
図6:変数の頻度数を順番に示したパレート図

詰め込み棒グラフ

  • 変数の数:1。
  • 変数の頻度数を降順に表示します。特に多くのカテゴリがある場合は、パレート図の代わりに使用されます。「重要な少数(vital few)」を強調するのに役立ちます。
  • 詰め込み棒グラフの詳細はこちら。
図7:多くのカテゴリを持つ変数の頻度数を順番に示した詰め込み棒グラフ

モザイク図

  • 変数の数:2つ以上。
  • カテゴリカル変数間の可能な関係を表示します。カテゴリの誤入力など、データのエラーを見つけるのに便利です。積み重ね棒グラフの特殊なタイプで、グループごとのデータの割合を表示します。
  • モザイク図の詳細はこちら。
図8:カテゴリカル変数間の可能な関係を示すモザイク図

ツリーマップ

  • 変数の数:2つ以上。
  • 変数間の可能な関係を示します。さまざまな変数によって色、順序、およびサイズを指定する特殊なタイプの積み上げ棒グラフです。
  • ツリーマップの詳細はこちら。
図9:変数間の関係を示すツリーマップ

箱ひげ図

  • 変数の数:1。
  • データの分布を表示します。ボックスの各部分が、25パーセンタイル、中央値(50パーセンタイル)、および75パーセンタイルを特定します。データによって、ひげは最小値と最大値を示します。外れ値がひげの外側に現れることもあります。データのエラーの検出と一変数の探索に使用されます。
  • 箱ひげ図の詳細はこちら。
図10:箱ひげ図

横並びの箱ひげ図

  • 変数の数:2つ以上。グループの定義に使用される変数の数に依る。
  • 別の変数で定義されたグループごとに箱ひげ図を表示します。データのエラーを見つけ、2つ以上の変数を探索するために使用されます。
図11:2つ以上の変数を探索するために使用される横並びの箱ひげ図

正規分位点プロット

  • 変数の数:1。
  • 変数が正規分布に従うという仮定が妥当であるかどうかを判断します。
図12:変数が正規分布に従うかどうかを判断するために用いられる正規分位点プロット

折れ線グラフ

  • 変数の数:2。
  • 経時的な変化を表します。x軸には、時系列に沿った値が必要です。折れ線グラフ(ランチャートとも呼ばれる)は、外れ値を見つけるのに役立ちます。
  • 折れ線グラフの詳細はこちら。
図13:経時的変化を表す折れ線グラフ

カテゴリごとの折れ線グラフ

  • 変数の数:2つ以上。グループの定義に使用される変数の数に依る。
  • 別の変数で定義されたグループごとに複数の折れ線グラフを表示します。複数の変数の経時的な変化を理解し、外れ値を見つけるために使用されます。
図14:複数の変数の経時的な変化を理解するために使用されるカテゴリごとの折れ線グラフ

散布図

  • 変数の数:2つ以上。色やマーカーのグループを定義するために用いられる変数の数に依る。
  • 2つの変数間の可能な関係を表示し、外れ値を特定します。他の変数を用いて色やマーカーを追加すると、探索的データ分析に役立ちます。参照線や仕様限界を追加すると、外れ値を特定するのに役立ちます。
  • 散布図の詳細はこちら。
図15:2つの変数間の可能な関係を示す散布図

散布図行列

  • 変数の数:多数。
  • すべての二者間の組み合わせに着目して、複数の変数間の可能な関係を表示します。次のような追加のグラフを加えることができます:外れ値を特定するための各変数のヒストグラム、多次元の外れ値を特定するための各散布図の確率楕円、考えられる関係を明確にするための相関のヒートマップ。
図16:複数の変数間の可能な関係を示す散布図行列

円グラフ

  • 変数の数:1つ以上。
  • 変数の部分と全体の関係を表示します。カテゴリを追加して複数の円グラフを作ると、単一の円グラフよりも役に立ちます。単一の変数の場合、小さな値の差を区別するには棒グラフが適しています。
  • 円グラフの詳細はこちら。
図17:変数の部分と全体の関係を示す円グラフ

ヒートマップ

  • 変数の数:2つ以上。
  • 変数間の可能な関係を示します。ほとんどの場合、経時的に変化するデータに使用されます。変数間の関係を探るために色を使用します。
  • ヒートマップの詳細はこちら。
図18:変数間の可能な関係を示すヒートマップ

幹葉図

  • 変数の数:1。
  • データの形状を表示し、外れ値を特定します。コンピュータが利用可能になる以前に、より広く使用されていました。現在はヒストグラムがより頻繁に使用されています。
図19:データの形状を示し、外れ値を特定する幹葉図