正規分布

正規分布とは?

正規分布は、母集団の値の理論分布です。グラフにプロットすると、ベルカーブとも呼ばれることもあり、正規分布に従うデータは中央の値の周りに集まる傾向があります。中心から上や下の値の頻度は対称的に減少します。

正規分布の使用方法

多くの統計分析方法では、データが正規分布に基づくことを前提とします。そうでない場合は、分析が正しくない可能性があります。

データが「正規」かどうかを確認できますか?

はい。単純な目視確認を行えます。ほとんどの統計ソフトウェアは、正式な統計的検定も行います。

正規分布の定義

統計ソフトウェアを使用して正規性を評価する方法をご覧ください

正規分布は、母集団の値の理論分布であり、正確な数学的定義があります。正規分布から得られた標本データは、「正規分布に従う」と言われます。複雑な数学に触れることなく、正規分布の有用な特性と、なぜそれが分析において重要なのかを見てみましょう。

まず、なぜ正規分布は重要なのでしょうか?

  • 多くの測定値は、正規分布に従っているか、ほぼ従っています。例としては、身長、体重、心拍数などがあります。これらすべては、さまざまな値を持つスケールで測定されることに注意してください。
  • 多くの測定の平均は正規分布に従っているか、ほぼ従っています。たとえば、毎日の通勤時間は正規分布に従わないかもしれません。しかし、毎日の通勤時間の月平均は正規分布に従っている可能性が高いでしょう。
  • 多くの統計手法は、正規分布に従っていることを前提とします。この場合、手法が「データが正規分布に従うと仮定する」または「正規性を仮定する」ことになります。

データ値のセットに対する最初のアクションの1つは、データの形状を確認することです。正規分布は対称的な形状をしています。これはベルカーブと呼ばれることがあります。分布のプロットが地面に置かれたベルのように見えるからです。

下の図1は、標本データ値のヒストグラムと理論上の正規分布(青い曲線)を示しています。ヒストグラムは、データ値の頻度を示す棒グラフの一種です。データが曲線と完全に一致していないことがわかりますが、これはよくあることです。実際、データが理論上の正規分布と完全に一致している場合は、多数の疑問が湧いてくることでしょう。実世界のデータが分布と完全に一致することはめったにありません。

図1:ほぼ正規分布に従うデータのヒストグラム

特徴の概要

正規分布には次の特徴があります。

  1. 平均と標準偏差によって完全に定義されます。
  2. 平均値、中央値、最頻値はすべて同じです。
  3. 対称的です。
  4. ベルの形をしています。

それぞれの特徴は重要であり、データについて何かを語っています。それでは、詳しく見てみましょう。

1. 平均と標準偏差によって完全に定義される

特定の正規分布の図を描くために必要なのは、平均と標準偏差の2つのみです。(正規分布データの平均と標準偏差の関係をさらに詳しく調べるには、経験則について読んでください。)

平均と標準偏差は正規分布のパラメータと呼ばれています。すべての分布にはパラメータがあり、2つ以上のパラメータを持つ分布もあります。どのような状況でも、パラメータによって特定の分布が定義されます。

正規分布曲線の例をいくつか見てみましょう。

図2には2つの正規分布があり、平均値はどちらも30です。青色の細長く高い分布の標準偏差は5です。オレンジ色の横長で低い分布の標準偏差は10です。

図2:平均値が同じで標準偏差が異なる2つの正規分布

図3も2つの正規分布が示され、標準偏差はどちらも5です。左側のオレンジ色の分布の平均値は20、右側の青色の分布の平均値は40です。

図3:平均値が異なり、標準偏差が同じ2つの正規分布

図4も2つの正規分布を示しています。オレンジ色の分布は、平均値が30で標準偏差は10です。青色の分布は、平均値が40で標準偏差は5です。

図4: 平均値と標準偏差が異なる2つの正規分布

2. 平均値 = 中央値 = 最頻値

平均値、中央値、最頻値は、データセットの中心を測定するための3つの方法です。真の正規分布では、これら3つが一致します。実際には、データはほぼ正規分布に近い可能性が高くなります。平均値、中央値、最頻値は互いに非常に近い値になる可能性はありますが、完全に一致することはあまりありません。

図5:平均値、中央値、最頻値が同じである真の正規分布

3. 対称的

正規分布は左右対称です。平均値でグラフを半分に折ることを考えれば、それぞれの面は完全に重なります。

4. ベル型

正規分布は、上記の例に見られるように、中央に1つの「こぶ」があるベル型です。

図6は、非正規分布を示しています。こぶは1つではなく2つあります。2つのこぶがある分布は、データにさまざまなグループが混在していることを示している可能性があります。たとえば、心拍数は通常、正規分布となりますが、知らないうちに、データにはアスリートのグループと非活動的な人々のグループの2つのグループの安静時心拍数が含まれているとしたら、以下のような二峰性分布となる可能性があります。

図6:非正規、二峰性分布

正規でないなら、異常なのでしょうか?

データが「正規分布」でない場合は、異常を意味するのでしょうか?違います。データが悪いという意味ですか?違います。データの種類が異なると、基礎となる分布も異なります。

考えられる理論分布はたくさんあります。多くの統計手法は、データが正規分布に従うことを前提としています。そうでない場合は、他の手法を使うことができます。

実際には、データが「ほぼ正規分布」であることが多くなります。正規性を確認するための単純な視覚ツールがいくつかあり、ほとんどのソフトウェアパッケージには正規性を確認する正式な統計検定が備わっています。

正規分布されていないデータのいくつかの例

  • 6面さいころの個々の投げ
  • コイン投げ
  • 製造における合格/不合格チェック
  • 列の待ち時間
  • バッテリーやその他の電子機器が故障するまでの時間
  • インターネットに投稿された動画のファイルサイズ

正規分布でない例でも、このような種類のデータを分析する手法はあります。

正規性を確認するための視覚的ツール

ヒストグラムの使用

上述のように、ヒストグラムは連続変数の頻度を示す特別なタイプの棒グラフです。このグラフは、データが一般的なベルカーブに従っているかどうかを確認するのに役立ちます。一部のソフトウェアパッケージでは、視覚的に比較するためにヒストグラムに正規曲線を追加することもできます。

図7は、正規分布ではないデータのヒストグラムの例を示しています。

図7:正規分布ではないデータのヒストグラム

正規性を視覚的に確認するためにヒストグラムを見る場合、グラフに以下が示されているかどうかを確認します。

  • 極端な値があるかどうか
  • 両側でほぼ同じ対称的な曲線に従っているかどうか
  • ベル型かどうか

ご覧のように、図7には極端な値があり、対称的ではなく、ベル型でもありません。

箱ひげ図の使用

正規分布の箱ひげ図は、平均値が中央値と同じであることを示します。また、データには極端な値がないことを示します。データは対称になります。

下の図8と図9の2つの箱ひげ図を見てみましょう。図8のデータはほぼ正規分布に従います。図9のデータは正規分布に従っていません。

箱ひげ図を正規性の視覚的確認として使用する場合、プロットに次の内容が表示されるかどうかを確認します。

  • 極端な値があるかどうか:図9の非正規分布のプロットでは、3つの外れ値が赤い点で示されています。図8のほぼ正規分布のプロットには、外れ値はありません。
  • 対称か否か:ほぼ正規分布のプロット(図8)は対称的ですが、非正規分布のプロット(図9)は対称的ではありません。
  • 平均値と中央値がほぼ等しい:これらの箱ひげ図では、箱の中央にある水平な黒い線が中央値で、青い線が平均値です。図8のほぼ正規分布の場合、平均値を示す青い線は、中央値を示す箱の中央の線とほぼ同じです。
図8:ほぼ正規分布の箱ひげ図
図9:正規分布でないデータの箱ひげ図

正規分位点プロットの使用

正規分位点プロットは、正規分布をベルカーブではなく直線で表します。データが正規分布に従っている場合、データ値はほぼ直線になります。データが正規分布に従っていない場合、データ値は直線からそれます。プロットのデータのパターンは、データが正規分布していない理由を理解するのに役立ちます。

図10は、正規分布からのデータの正規分位点プロットを示しています。ほとんどのデータ値が赤い実線の近くに収まっていることがわかります。また、データ値もすべて赤い点線の信頼区間内に収まっています。

図11は正規分布からでないデータを示しています。一部のデータ値は赤い実線の近くにありますが、ほとんどは違います。一部のデータ値は、赤い点線の信頼区間の外側にあります。さらに、右上には極端な値もいくつかあります。

図10:正規分布に従うデータの正規分位点プロット
図11:正規分布に従わないデータの正規分位点プロット

ほとんどの統計ソフトウェアは正規分位点プロットを作成します。正規分位点プロットで正規性を見る場合、データが以下に当てはまるかどうかを確認できます。

  • 極端な値があるかどうか
  • 正規分布を示す線に沿っているかどうか
  • ほとんどのデータ点が、信頼区間内に収まっているかどうか

正規分布の使用用途

連続データ: 適している

連続データは、多くの可能な値を持つスケールで測定されるため、正規分布に適しています。連続データの例は次のとおりです。

  • 年齢
  • 血圧
  • 体重
  • 温度
  • 速度

これらすべての例では、正規分布を仮定する手法の使用を検討することが理にかなっています。ただし、すべての連続データが正規分布に従うわけではないことに注意してください。正規性を仮定した方法を適用する前に、データをプロットし、そのデータが何を表しているのかを考えてください。

順序データまたは名義データ:適していない

順序データまたは名義データは、可能な値がわずかしかないスケールで測定されるため、正規分布を利用することは理にかなっていません。

順序データでは、標本はグループに分けられ、応答には特定の順序があります。たとえば、「まったくそう思わない」から「非常にそう思う」までのスケールで意見を述べるように求められる調査では、応答は順序データです。

名義データの場合、標本もグループに分けられますが、特定の順序はありません。たとえば、生物学的性別と居住国は名義データです。標本では男性をM、女性をFとしたり、0と1を使ったりできます。居住国に関しては、国の略語を使用することも、数字を使用して国名をコーディングすることもできます。このデータに数値を使用する場合でも、正規分布を使用するのは意味がありません。

その他のトピック

正規性の検定

ほとんどの統計ソフトウェアパッケージには、正規性の正式な検定が含まれています。これらの検定では、データが正規分布に従うことが仮定され、この仮定が妥当かどうかを。データを使用して確認します。

t -分布の使用

正規分布は理論分布です。これは母平均と母標準偏差によって完全に定義されます。

実際には、これら2つの統計量の母集団の値を知っていることはまずありません。

t-分布は正規分布と非常によく似ており、標本平均と標本標準偏差を使用します。これらの推定値を使用するため、完全に定義するにはもう1つのパラメータが必要になります。

追加パラメータは自由度であり、これは単純に標本サイズから1を引いたものです。nが標本サイズの場合、自由度はn-1と示されます。これを簡単に覚えておく方法は、t-分布は自由度にある種の「補正因子」があるということです。この補正因子は、分布が未知の母集団の値ではなく、標本の平均値と標本の標準偏差に基づいているという事実を説明するのに役立ちます。