箱ひげ図

箱ひげ図とは?

箱ひげ図は、連続変数のデータの分布を示しています。

箱ひげ図の使用方法

箱ひげ図は、データの中心と広がりを確認するのに役立ちます。箱ひげ図を可視化ツールとして使用して、正規性を確認したり、外れ値である可能性のある点を特定したりすることもできます。

箱ひげ図(ボックスプロット)は箱ひげ図(box-and-whiskerプロット)と同じですか?

はい。箱ひげ図(ボックスプロット)は、外れ値の箱ひげ図または分位点の箱ひげ図と呼ばれることもあります。それぞれの箱ひげ図は、描画方法に関する違いがあります。

考慮すべき問題とは?

箱ひげ図を使用する場合は、データの外れ値を確認してください。データセットが非常に小さい場合は注意してください。カテゴリカル変数または名義尺度変数がある場合は、代わりに棒グラフを使用してください。

データの分布を示す箱ひげ図

「箱ひげ図」という用語は、外れ値の箱ひげ図を指します。このプロットは、箱ひげ図(box-and-whiskerプロット)またはTukeyの箱ひげ図とも呼ばれます。別のタイプの箱ひげ図については、以下の「外れ値と分位点の箱ひげ図の比較」セクションを参照してください。

箱ひげ図の基本的な要素は次のとおりです。

  • 箱の中心線は、データの中央値を示しています。データの半分はこの値を上回り、半分は下にあります。データが対称である場合、中央値はボックスの中央になります。データが歪んでいる場合、中央値はボックスの上部または下部に近くなります。
  • 箱の下部と上部には、第25、および75分位点(パーセンタイル)が表示されます。これらの2つの分位点は、それぞれがデータの4分の1(25%)を切り取るため、四分位点とも呼ばれます。箱の長さは、これら2つのパーセンタイルの差であり、四分位範囲(IQR)と呼ばれます。
  • 箱から伸びる線は、ひげと呼ばれますひげは、データの予想される変動を表します。ひげは箱の上下から四分位範囲の1.5倍伸びます。データがひげの端まで届いていない場合、ひげは最小および最大のデータ値まで伸びます。ひげの端より上または下にある値がある場合、それらはドットとしてプロットされます。これらの点はしばしば外れ値と呼ばれます。外れ値は、予想される変動よりも端にある値です。これらのデータ点は、外れ値なのかエラーなのかを判断するために確認する必要があります。ひげにはこれらの外れ値は含まれません。

図1は箱ひげ図を示しています。

図1:パーセンタイルのラベル付きの箱ひげ図

中央値は図1のグラフのボックスの中央付近にあり、データ値がほぼ対称であることを示しています。対称でない場合のデータについては、以下の図4を参照してください。

外れ値と分位点の箱ひげ図の比較

外れ値と分位点の箱ひげ図はどちらも、中央値、25パーセンタイルおよび75パーセンタイルを示しています。25パーセンタイルは第25分位点でもあります。これは、データの25%が第25分位点よりも低いことを意味します。分位点の箱ひげ図は、第2.5、10、90、および97.5分位点を外れ値の箱ひげ図に追加します。図2は、同じデータの分位点と外れ値の箱ひげ図を示しています。

図2:分位点と外れ値の箱ひげ図の比較

箱ひげ図とヒストグラムの比較

箱ひげ図とヒストグラムは両方ともデータの形状を示します。どちらも、異常値または外れ値を識別するために使用できます。図3は、同じデータセットを、外れ値の箱ひげ図とヒストグラムで示しています。この例では、ヒストグラムは横方向ではなく縦方向です。

図3:箱ひげ図とヒストグラムの比較

データに両方のタイプのグラフを使用すると役立つ場合があります。データが歪んでいる場合、中央値の線はボックスの中心近くにないため、箱ひげ図は歪度を確認するのに役立ちます。箱ひげ図は、ヒストグラムよりも25パーセンタイルと75パーセンタイルを特定するのに役立ちます。一方、ヒストグラムは、箱ひげ図よりもデータの全体的な形状を確認するのに役立ちます。

箱ひげ図の作成方法

以前は、箱ひげ図は手動で作成されていました。今日、ほとんどの人はソフトウェアを使用して箱ひげ図を作成しているため、手計算を回避できるようになり誤りが減少しています。箱ひげ図は、5つの要約統計量として知られるものに基づいています。この5つの数値は、データセットの最小値、25パーセンタイル、中央値、75パーセンタイル、および最大値です。これらの5つの数値を使用して、箱ひげ図を作成できます。つまり、任意のデータセットに対して、5つのステップで箱ひげ図を作成できます。

  1. 中央値、25、および75パーセンタイルを計算します。
  2. 四分位範囲(IQR)を、75パーセンタイルと25パーセンタイルの差として計算します。
  3. 四分位範囲に1.5を掛けて、ひげの最大長を計算します。
  4. 外れ値を特定します。
  5. 計算された統計を使用して結果をプロットし、箱ひげ図を描きます。

 

箱ひげ図の例

下の箱ひげ図のシリアルデータは、76種類のシリアルの1食当たりのカロリーを測定した結果を示しています。カロリーは連続変数であるため、箱ひげ図が適しています。

図4:連続尺度データを表示した箱ひげ図

102の中央値には、101の25パーセンタイルの方が200の75パーセンタイルよりも近いため、このデータは歪んでいます。

箱ひげ図に平均を追加する

使用するソフトウェアによっては、箱ひげ図を拡張できます。図5に示すように、JMPは平均値のひし形を追加できます。ひし形の上部と下部は、平均の95%信頼区間です。ひし形の中央は標本平均であり、母平均の推定値です。

図5:平均値を表示した箱ひげ図

シリアルのデータでは、平均値が中央値よりも高くなっています。平均値と中央値の差から、これらのデータは歪んでおり、正規分布ではない可能性が高いことがわかります。

JMPでは、グラフにひと工夫することもできます。図6の箱ひげ図では、平均値のひし形の真ん中に緑色の太い線が追加されており、平均値と中央値の違いを示しやすくなっています。

図6:平均値と中央値の差を示すために線が追加された箱ひげ図

JMPでは、図7に示すような注釈ツールも利用できます。

図7:簡単な要約統計量を表示された箱ひげ図

このグラフは、カロリーの基本的な統計量を要約し、データの分布を表示しています。データが歪んでいて、正規分布してないことを強調しています。

外れ値を強調する箱ひげ図

箱ひげ図は、興味深いデータ点または外れ値を特定するのに役立ちます。これらの値はデータ点としてプロットされ、ひげの外側に位置します。図8は、3つの外れ値を持つ箱ひげ図を表します。外れ値は、上部のひげの外側に赤い点で示されます。これら3つの点は四分位範囲の1.5倍を上回ります。四分位範囲の1.5倍以上の点は、データの変動の予想される範囲を超えています。

図8:外れ値が表示された箱ひげ図

外れ値は、平均値、中央値、およびその他のパーセンタイルに影響します。箱ひげ図では外れ値が強調表示されているため、検討対象のデータ点を簡単に特定できます。外れ値はデータのエラーである場合や、その他の理由で異常値である場合があります。例えば、図8の3つの外れ値が予想される範囲の外側にある場合、それらが有効なデータ点であるかどうかを判断する必要があります。

グループごとの箱ひげ図の例

データにグループがある場合は、箱ひげ図を並べて作成して、データについて詳しく知ることができます。これはグループを比較するためのシンプルで強力なツールになります。

人の健康状態を測定する1つの方法は、体脂肪率を測定することです。ほとんどのガイドラインから、男性と女性の体脂肪率が異なることが予想されます(このデータの詳細については、2標本のt検定ページを参照してください)。体脂肪率(Body Fat)は連続変数であるため、このデータの分布を表示するには箱ひげ図が適切です。図9は、男性と女性の体脂肪率を並べた箱ひげ図です。

図9:男性と女性の間の体脂肪率データの広がりを比較した横並びの箱ひげ図

このグラフから、男性の体脂肪の中央値は女性よりも低いことがわかります。男性と女性の範囲が重複していることもわかります。男性のデータは、女性のデータよりも歪度が高くなっています。どちらのグループにも外れ値はありません。JMPを使用すると、平均値のひし形、各平均値の線、および注釈をこれらの箱ひげ図に追加できます。

グループごとに並べた箱ひげ図を使用すると、グループの違いを示し、外れ値を特定するのに役立ちます。

箱ひげ図とデータの種類

 

図10:連続尺度データは、箱ひげ図に適しています
図11:カテゴリカルデータは、箱ひげ図よりも棒グラフに適しています
図12:箱ひげ図に表示したカテゴリカルデータは、この種のプロットには適していません
図13:名義尺度データは、箱ひげ図よりも棒グラフに適しています
図14:箱ひげ図に表示した名義尺度データは、この種のプロットには適していません

連続尺度データ:箱ひげ図に適しています

連続尺度データは、多くの可能な値を持つスケールで測定されるため、箱ひげ図に適しています。連続尺度データの例は次のとおりです。

  • 経過時間
  • 血圧
  • 重み
  • 温度
  • 速度

これらすべての例で、箱ひげ図は、データの分布を調べるための適切なグラフツールです。

カテゴリカルデータまたは名義尺度データ:棒グラフを使用してください

カテゴリカルデータまたは名義尺度データは、特定の値を持つスケールで測定されるため、箱ひげ図に適していません。代わりに、棒グラフを使用してください。

カテゴリカルデータでは、標本はグループに分割されることが多く、応答の順序が定義されている場合もあります。例えば、「まったくそう思わない」から「非常にそう思う」までのスケールで意見を述べるように求められる調査では、回答はカテゴリカルです。

名義尺度データでは、標本もグループに分割されますが、特定の順序はありません。居住国は名義尺度変数の一例です。国の略語を使用することも、数字を使用して国名をコーディングすることもできます。いずれにせよ、データのさまざまなグループに名前を付けるだけです。