棒グラフ

棒グラフとは?

棒グラフは、カテゴリカル変数または名義尺度変数の水準の度数値を示します。

棒グラフの使用方法

棒グラフは、変数の水準を理解するのに役立ち、エラーをチェックするために使用できます。

考慮すべき問題とは?

棒グラフは、名義尺度データまたはカテゴリカルデータに使用されます。連続尺度データの場合は、代わりにヒストグラムを使用してください。

データの頻度数を示す棒グラフ

棒グラフは、カテゴリカル変数または名義尺度変数の、さまざまな水準の値の頻度数を示します。棒グラフには、割合などの他の統計量が表示される場合があります。図1は、アンケート質問への回答についての棒グラフの例です。

図1:アンケートデータの頻度数を表示した棒グラフ

各棒は変数の水準を示します。棒の高さは、その水準の応答の度数を示します。

棒グラフとヒストグラムの違いとは?

ヒストグラムと棒グラフの2つの重要な違いは、棒の間隔とデータの種類です。ヒストグラムの棒の間には間隔がありませんが、棒グラフには間隔があります。ただし、多くのソフトウェアツールで、棒グラフを修正して棒の間の間隔をなくすことができます。よって、ヒストグラムと棒グラフの2つ目の重要な違いに話を進めます。

ヒストグラムは連続尺度データで使用されます。棒グラフは、カテゴリカルデータまたは名義尺度データで使用されます。詳細については、以下の「棒グラフとデータの種類」セクションを参照してください。

棒グラフとパレート図の違いとは?

パレート図は棒グラフの特別な例です。パレート図の場合、高いものから低いものの順に棒が並べられます。この図は、品質管理において最も問題のある領域を特定するためによく使用されます。

ヒストグラムのように、パレート図の場合はそれぞれの棒の間に間隔がありません。一方でヒストグラムとは異なり、パレート図は名義尺度変数またはカテゴリカル変数の度数を要約します。

図2は、ビジネスプロセスの監査の結果を種類ごとに要約したパレート図の例になります。カテゴリの凡例が含まれているため、ラベルを長くしてカテゴリを読みやすくすることができます。

図2:対応する凡例を付けてカテゴリカルデータを表示したパレート図

度数以外の統計量のグラフ化

これまでの例は度数の棒グラフを示していますが、棒グラフは割合などの他の統計量も表示できます。ほとんどのソフトウェアツールには、統計量をグラフ化するためのオプションがあります。

 

棒グラフの例

棒グラフの作成にソフトウェアがよく用いられます。通常、ユーザーはソフトウェアを用いて、縦または横方向に棒グラフを作成したり、棒グラフにカスタム機能を追加したりできます。

以下は棒グラフのいくつかの例です。統計家もしくは利用可能な多くの書籍やウェブサイトを参考にして、データに最適な棒グラフの種類を判断することをお勧めします。

図3~15では、10袋のキャンディのデータを使用しています。各袋には100個のキャンディが入っており、袋ごとに5つのフレーバーの個数が集計されています。目標は、各フレーバーの個数をほぼ同じにすることです。つまり、各袋に各フレーバーのキャンディが20個づつ含まれることを期待します。10袋全体では、フレーバーごとに約200個のキャンディがあることを期待します。

最初のステップは、図3に示すように、データから棒グラフを作成することです。

図3:10袋に含まれているキャンディの種類ごとの度数を示す棒グラフ

JMPソフトウェアは、フレーバー名のアルファベット順に棒を並べます。これは、相手に結果を表示するための最良の方法かもしれません。

一方で、図4に示すように、度数の降順に棒を並べ替えてもいいかもしれません。

図4:図3と同じ棒グラフを、度数の降順に表示しています

これで、グレープとオレンジのキャンディの総数が同じであることがわかります。これは図3にも当てはまりますが、見やすくはありませんでした。

棒は縦方向です。グラフのラベルが長い場合、多くの場合は横棒グラフの方が適しています。図5は、フレーバーのラベルが長い場合の同じデータを、横チャートで示しています。代わりに縦棒グラフを使用した場合、ラベルが読みづらくなる可能性があります。

図5:横棒グラフ

これまでの例では、すべての棒に同じ色を使用しました。原則として、多くの色を使用しすぎるとグラフがわかりにくくなります。

一方で、キャンディ会社は、すべての袋に各フレーバーが少なくとも18個含まれることを求めている、と仮定します。10個の袋全体では、各フレーバーが少なくとも180個必要です。データにはチェリーが120個しかないので、この問題を強調しようと思います。図6では、これを強調するために影付きの棒を使用しています。別のオプションは、チェリーの棒を強調するために別の色を使用することです。

図6:図5に影付きの棒を追加した横棒グラフ

棒にラベルを付けてもいいかもしれません。図7では、棒の端に度数を追加しています。この方法は、アップル(Red Candy Apple)のフレーバーにも問題があり得ることを示すのに役立ちます。というのも、1袋当たり18個という要件を辛うじて満たしているためです。

図7:図6に頻度数ラベルを付けた横棒グラフ

データの極値が棒グラフに与える影響

棒グラフは、データ内のカテゴリの度数を示します。ヒストグラムとは異なり、棒グラフは極値の影響を受けません。棒グラフは、棒の値が非常に少ない(または非常に多い)カテゴリーを、別の棒で単に表示することができます。図8は、グレープのフレーバーがマンゴーに置き換えられた、別のキャンディのデータセットを示しています。マンゴーの数は予想よりはるかに少なくなっています。

図8:極端な(予想外に低い)値を表示した棒グラフ

図9は、グレープがパイナップルに置き換えられた別の例を示しています。パイナップルの数は予想よりはるかに多くなっています。

図9:極端な(予想外に高い)値を表示した棒グラフ

棒グラフは、データ内の誤った値を特定するのに役立ちます。図10では、1つのデータ値で「Mango」のスペルが「Mangi」と間違っていました。これは、明らかに修正が必要なデータの誤りです。棒グラフを用いてデータに誤りがないか確認すると役立つ場合があります。

図10:明確なスペルミスのあるカテゴリを表示した棒グラフ

棒グラフにグループを追加する方法

データにグループがある場合、すべてのデータを棒グラフにまとめてプロットすると、これらのグループ全体のパターンを示すのに役立ちます。図11は、3つのキャンディ工場のデータを合わせたものです。

図11:グループ分けされたデータを表示した棒グラフ

この図から、どの工場がキャンディ袋にどのフレーバーを使用しているかがわかります。また、工場Aの袋に含まれるマンゴーキャンディの数が少なすぎる、などの問題も確認できます。この例では、棒グラフをアルファベット順に並べることが理に適っています。工場によって順序が異なるため、度数順に並べることはできません。

この例では、工場ごとに異なる色を使用すると役立つでしょう。図12は、各工場を違う色で示しています。

図12:異なるグループを区別するために、グループ分けされたデータを色を用いて表示した棒グラフ

図13に示すように、度数を視覚的に比較しやすくするために、横軸に度数を表示してもいいでしょう。

図13:頻度数のラベル付きでグループ分けされたデータを表示した横棒グラフ

図13を使用すると、さまざまなフレーバーの度数を簡単に比較できます。しかしながら、それぞれの工場でどのフレーバーが扱われているのかを特定するのが図12よりも難しくなります。

これらは、棒グラフにグループを追加する多くの方法のほんの一部です。データごとに、相手に対するメッセージと、そのメッセージに最適なグラフを作成する方法について考える必要があります。

積み重ね棒グラフ

グループによる分割を用いる代わりに、積み重ね棒グラフを使用してもいいでしょう。積み重ね棒グラフを使用して、キャンディのデータの工場をグループとして、グループごとに応答を表示します。それぞれのグループは1つの棒で表されます。次に、変数の頻度数が各工場の棒に積み重ねられます。キャンディのデータの場合、フレーバーの度数が各工場の棒に積み重ねられます。図14は、フレーバーごとに異なる色を使用した、3つの工場のキャンディのデータに対する積み重ね棒グラフを示しています。

図14:グループ分けされたデータを表示した積み重ね棒グラフ

図14では、工場Aのみがマンゴーを扱い、工場Bのみがパイナップルを扱い、工場Cのみがグレープを扱っていることが簡単にわかります。棒の積み重ねられた部分のサイズを比較すると、工場Aはマンゴーのキャンディをほとんど扱っておらず、工場Bはパイナップルのキャンディを多く扱っていることがわかります。

凡例を追加することは、積み重ね棒グラフにとって重要です。図15に示すように、多くのソフトウェアツールで、積み重ね棒グラフにラベルを追加できます。例えば、ラベルは、工場Bのチェリーとオレンジのフレーバーの度数が同じであることを確認するのに役立ちます。

図15:キャンディのフレーバーの頻度数のラベルを表示した積み重ね棒グラフ

色に関して最終決定を行う前に、積み重ね棒グラフをグレースケールで印刷すると有用な場合があります。また、図15に示すように、ラベルを追加するときは、そのラベルが積み重ねられた棒の各要素の背景色で読み取れることを確認する必要があります。

棒グラフとデータの種類

図16〜20は、さまざまなタイプのデータに棒グラフまたはヒストグラムを使用することが適切な場合を示しています。

図16:カテゴリカルデータを表示した棒グラフ(適切な例)
図17:カテゴリカルデータを表示したヒストグラム(不適切な例)
図18:名義尺度データを表示した棒グラフ(適切な例)
図17:名義尺度データを表示したヒストグラム(不適切な例)
図20:連続尺度データを表示したヒストグラム(適切な例)

カテゴリカルデータまたは名義尺度データ:棒グラフに適しています

カテゴリカルデータまたは名義尺度データは、特定の可能な値を持つスケールで測定されるため、棒グラフに適しています。

カテゴリカルデータでは、標本はグループに分割されていることが多く、応答の順序が定義されている場合もあります。例えば、「まったくそう思わない」から「非常にそう思う」までのスケールで意見を述べるように求められる調査では、回答はカテゴリカルです。

名義尺度データでは、標本もグループに分割されますが、特定の順序はありません。居住国は名義尺度変数の一例です。国の略語を使用することも、数字を使用して国名をコーディングすることもできます。いずれにせよ、データのさまざまなグループに名前を付けるだけです。

連続尺度データ:ヒストグラムを使用します

連続尺度データは、多くの可能な値を持つスケールで測定されるため、棒グラフに適していません。連続尺度データの例は次のとおりです。

  • 経過時間
  • 血圧
  • 重み
  • 温度
  • 速度

これらすべての例では、棒グラフの代わりにヒストグラムを使用してください。