平均値、中央値、最頻値

平均値とは?

平均値は、一連のデータ値の中心を測定します。連続データの場合、平均値はデータ値の平均です。

平均値の使用方法

データ値の標本の平均値は、真の未知の母平均を推定するために使用されます。平均値は、データセットの簡単な要約統計量としてよく使用されます。統計的区間、仮説検定の統計量、管理図の限界を計算するために標準偏差と組み合わせて使用されます。

平均値について考慮すべき問題とは?

平均値は極端な値の影響を受ける可能性があります。極端な値や歪んだ分布がある場合、中央値が中心のより適切な尺度となる場合があります。平均値を使用する前に、データに極端な値がないかを確認し、グラフを見てデータがほぼ対称であるかどうかを確認します。

中央値とは?

中央値は標本データの50パーセント点です。つまり、データ値の50%は中央値を上回り、50%は中央値を下回ります。中央値は、標本のデータの中心を示す別の推定値です。

最頻値とは?

最頻値は、データの中で最も頻繁に出現する値です。繰り返しのないデータセットには最頻値はありません。同じ頻度で繰り返される値が複数あるデータセットには、複数の最頻値が存在する場合があります。最頻値も、データの中心を推定するために使用されます。

平均値はデータセットの中心を説明します

図1のように、一連のデータ値があり、それらをプロットするとします。横軸はデータ値を示します。縦軸は、特定のデータ値を持つ点がいくつあるかを示します。統計用語では、これをヒストグラムまたはデータ値の分布と言います。平均値がデータの中心を推定します。

図1:データ値のヒストグラム

母平均とは?

母平均は理論上の母集団の中心であり、多くの場合、未知です。

母集団が分かっている例について考えてみましょう。1950年以降の大西洋ハリケーンの上陸時の風速の平均を知りたいとします。これは比較的小さな母集団であり、1950年以降に上陸したすべての大西洋ハリケーンのデータが利用可能です。この場合、母平均を簡単に計算できます。

しかし、多くの場合、母集団全体のデータを取得できないため、真の母平均を知ることはできません。

母平均は、数式ではギリシャ文字の「小文字のm」または「ミュー」で表されます。記号はμです。

標本平均とは?

未知の母平均を推定するには、データの標本を収集し、その標本の平均値を計算します。

標本平均は、標本のデータの中心を測定します。これが母平均の推定値です。

標本平均の統計記号はxと線、またはxの上に線が書かれたものです。「エックスバー」と呼ばれ  と表されます。

標本平均、算術平均、標本平均の違いとは?

3つとも標本平均を示す用語で、意味は同じです。

母平均は未知な場合が多いため、「標本平均」に「平均」という用語が使用される場合があります。記事に「平均所得」や「平均気温」と出てきた場合は、通常、標本データの平均を意味しています。

50%が「平均を上回る」というのは真実ではありません

多くの人は、データ値の50%は標本平均を上回り、50%は下回ると間違った思い込みをしていますが、多くの場合、これは真実ではありません。この間違いは、平均値と中央値を混同したものです。平均値と中央値が一致するのは、一部の状況でのみです。

平均値の計算方法

平均値を計算するには、標本のデータ値のすべての数値を合計し、データ値の数で割ります。簡単な例で、この計算を調べてみましょう。

データ値が 4、5、6 であるとします。平均値を計算するには:

$\frac{(4+5+6)}{3} = \frac{15}{3} = 5$

通常、平均の計算にはソフトウェアを使用します。平均値の計算式は次のとおりです。

$\overline{x}=\frac{Σx_i}{n}$

上記の計算式では、標本にはn個のデータ値があります。各データ値はxiで表されます。総和記号$Σ$は、例で行ったように、データ値を合計することを意味します。

母平均が未知な場合、母集団のサイズは大文字のNで表されることがよくあります。母平均を計算できるような状況では、計算式は同じですがnの代わりにNを使用します。

中央値

中央値は標本データの50パーセント点です。データ値の50%が中央値を上回り、50%が中央値を下回るというのは常に真実です。平均値と同様に、真の未知の母集団中央値と標本中央値が存在します。真の母集団中央値が分かっていることはほとんどありません。

平均値と中央値はどちらもデータの中心を推定するもので、どちらもしばしば報告されます。以下で説明するように、中央値は極端なデータ値や非対称のデータによる影響をあまり受けません。

中央値の計算方法

中央値を計算するには、最初に標本データの値を昇順(値が低い順)に並べてから、中間値を見つけます。

簡単な例をいくつか使うと、これが理解しやすくなります。

ここでもデータ値が4、5、6であるとします。

まず、値を昇順に並べます:4 – 5 – 6。

この例の中間値は5です。これが中央値です。データの半分は中央値を上回り、半分は中央値を下回ります。

2つ目の例として、標本に偶数のデータ値、たとえば 7、4、5、6 があるとします。中間値はひとつではありません。

まず、データ値を昇順に並べます:4 – 5 – 6 – 7。

次に2つの中間値を見つけます:5と6。

その次に、この2つの値を足して2で割り、この2つの値の平均を取ります。その結果が中央値です。例:

$\frac{5+6}{2} = \frac{11}{2} = 5.5$

この両方の例で、中央値は中間値です。標本データの半分は中央値を上回り、半分は中央値を下回ります。

2つ目の例では、4、5、5.5、6、7という値があり、中央値5.5は並べた標本データの中間にあります。

通常、中央値の計算にはソフトウェアを使用します。

最頻値

最頻値は、データの中心を推定するために使用されるもう一つの統計量です。最頻値とは最も頻繁に出現する値です。

たとえば、データ値が3、4、4、4、5、6 である場合、

最も頻繁に出現している4が最頻値です。

ほとんどの統計ソフトウェアは最頻値を計算します。ただし、実際には、最頻値は平均値や中央値ほど頻繁に使用されません。そのため、このページの残りの部分では、平均値と中央値の2つに焦点を当てます。

極端なデータ値が標本平均と標本中央値に与える影響

標本平均は極端なデータ値の影響を受けやすい場合があります。上の例を少し変更し、標本データの値が4、5、12になったとします。

標本平均は次のとおりです。

$\frac{4+5+12}{3} = \frac{21}{3} = 7$

標本中央値は、度数順のデータ値4、5、12の中間値、5です。

これを前の例と比較します。4、5、6のデータ値の平均値と中央値は5でした。1つのデータ値を6から12に変更すると、中央値は変わりませんでしたが、平均値は5から7に変わりました。

より大きなデータセットでは、1つの極端なデータ値が標本平均値に与える影響は大きくても、標本中央値に与える影響は小さくなります。中央値は外れ値や極端なデータ値に対して頑健(ロバスト)であると言えます。

以下の分布は、外れ値を除外したデータセット(図2)と、外れ値を含めたデータセット(図3)を示しています。

図2:外れ値を除外したデータセットの分布
図3:外れ値を含んだデータセットの分布

どちらのデータセットも中央値は44.6です。外れ値のないデータの平均は45.3で、外れ値のあるデータの平均は45.6です。両方のヒストグラムの軸のスケールは30〜90です。

注意:極端なデータ値があるからといって削除しないでください。極端なデータ値がエラーなのか異常値なのかを調べる必要があります。エラーであれば、値を修正する必要があります。値がエラーであると特定できない場合は、極端なデータ値を省略するべきではありません。このような場合、疑わしいデータポイントを含んだ分析と含まない分析の両方を報告することもできます。

たとえば、血圧データを収集するとします。標本の中に収縮期血圧(最高血圧)が95の人がいるとします。これは低い値ですが妥当です。しかし、その人の拡張期血圧(最低血圧)も95であるとき、これは正しくない可能性が高いです。この場合、元のデータを見つけて、このデータポイントがエラーであるかどうかを確認する必要があります。

データの対称性が標本平均と標本中央値に与える影響

データが対称でない場合、標本平均値と標本中央値は異なります。データが非対称である場合、それは歪んだ分布を持つと言われます。

対称分布、左に歪んだ分布、右に歪んだ分布の3つの分布について見てみましょう。

図4のヒストグラムは、ほぼ対称なデータを示しています。プロットを中央で半分に折りたたむことを考えると、両側はほぼ重なります。平均値と中央値は非常によく似ています。

図5のヒストグラムは、非対称なデータを示しています。このデータは、より低い値に大きく重み付けされ、左側に歪んでいます。歪度統計量は負で、平均値は中央値より小さくなっています。

図6のヒストグラムにも、非対称のデータが示されています。このデータは、より高い値に重み付けされ、右側に歪んでいます。歪度統計量は正で、平均値は中央値より大きくなっています。

図4:ほぼ対称的なデータの分布
図5:非対称の左に歪んだデータ
図6:非対称の右に歪んだデータ

平均値と中央値の使用用途

図7~9 は、平均値と中央値の使用が適切なデータの種類を示しています。

図7:標本平均値と標本中央値を計算できる連続データの分布
図8: 標本平均値と標本中央値を計算してはならない順序データの分布
図9: 標本平均値と標本中央値を計算してはならない名義データの分布

連続データ:平均値と中央値が適切

平均値と中央値は、連続データに適しています。これらのデータは、多くの可能な値を持つスケールで測定されます。連続データの例は次のとおりです。

  • 年齢
  • 血圧
  • 体重
  • 温度
  • 速度

これらすべての例で、平均値と中央値を計算することに意味があります。

順序データまたは名義データ:平均値と中央値は適用不可

平均値と中央値は、順序データまたは名義データには適用できません。これらのタイプのデータは限られた数の値をもつスケールで測定されるためです。

順序データでは、標本はグループに分けられ、応答には定義された順序があります。たとえば、「まったくそう思わない」から「非常にそう思う」までのスケールで意見を求められる調査では、回答は順序データです(図8)。

名義データの場合、標本もグループに分けられますが、特定の順序はありません。たとえば、生物学的性別と居住国は名義データです。名義データが数値でコード化されている場合は、平均値を計算できる場合もあります。平均値の解釈はコーディングによって異なります。たとえば、男性に0、女性に1を使用して性別をコーディングし、標本平均が計算された場合、0.6という値が得られる可能性があります。この値は標本に含まれる女性の割合を表し、意味があります。居住国については、国名を数値でコード化する場合、平均を計算できますが、その平均値は意味のある解釈にはなりません。