標準偏差

標準偏差とは?

標準偏差は、一連のデータ値のばらつきを測定します。標準偏差が大きい場合、データ値が広範囲にばらついていることを示し、標準偏差が小さい場合は、データ値がデータセットの平均の周りに密集していることを示しています。

標準偏差の使用方法

標準偏差は、一連のデータ値のばらつきを調査するために使用されます。また、統計的区間、仮説検定の統計量、管理図の限界を計算するために平均と組み合わせて使用されます。

標準偏差について考慮すべき問題とは?

標準偏差は、極端な値や小さなデータセットの影響を受ける可能性があります。外れ値が分析にどのような影響を与えるかを必ず考慮してください。また、標準偏差は連続データのみに関連します。

標準偏差は、一連のデータの広がりを表します。

一連のデータ値があり、それを以下のグラフのようにプロットするとします。横軸はデータ値を示します。縦軸は各データ値の頻度を示します。統計用語では、これはデータ値のヒストグラム、または分布です。標準偏差は、データの広がり、または幅を推定する単一の数値です。

図1:広がりの大きいデータ値のヒストグラム
図2:広がりの小さいデータ値のヒストグラム

母集団標準偏差とは?

統計学では、母集団とは、理解して何らかの結論を導き出そうとしているデータの集合全体を指します。多くの場合、母集団はとてつもなく大きいので、母集団のすべての要素についてデータを収集することは不可能です。このような状況では、母集団標準偏差は理論上の母集団の広がりを測定するため、ほとんどの場合、未知です。

母集団を知ることができる例について考えてみましょう。1950年以降の大西洋ハリケーンの上陸時の風速の分布を知りたいとします。これは比較的小さな母集団であり、1950年以降に上陸したすべての大西洋ハリケーンのデータがすぐに利用できるため、母集団標準偏差を計算することができます。

標本標準偏差とは?

未知の母集団の標準偏差を推定するには、データの標本を収集します。次に、その標本の標準偏差を計算します。標本標準偏差は、標本のデータの広がりを測定します。これは、母集団標準偏差の推定値です。

標準偏差と分散の違いとは?

標準偏差は分散の平方根です。標準偏差と分散はどちらも広がりの指標です。標準偏差はデータと同じ単位で表されます。たとえば、年齢を年単位で測定する場合、標準偏差も年単位になります。分散の代わりに標準偏差が使用される理由はここにもあります。「年単位の年齢」は「年単位の年齢の2乗」よりも単純に考えることができます。

標準偏差と変動係数(CV)の違いとは?

変動係数(CV)は、標準偏差を平均で割ったものです。CVは、共通のスケールでデータセットの標準偏差を比較するために使用されます。CVは、測定システムの精度の指標変数として使用されます。

標準偏差の可能値とは?

標準偏差はほとんどの場合正の値です。例外が1つあり、データセットのすべての値が同じである場合、標準偏差はゼロになります。このとき、データのばらつきや広がりはありません。

標準偏差の計算方法

標本の標準偏差を計算するには、まず標本平均を計算します。次に、各データ値の、値と標本平均の差を計算します。次に、これらの差を2乗して合計します。最後に、その合計をデータ値の数から1を引いたもので割り、標本分散を求めます。標準偏差を求めるには平方根を取ります。標準偏差はデータと同じ単位です。

簡単な例で、この計算を調べてみましょう。6人の安静時心拍数を測定するとします。ほとんどの人の安静時心拍数は1分あたり60~100拍(BPM)です。アスリートは、健康な安静時心拍数を40まで下げることができます。心拍数が高くなるのは、健康上の問題である場合もあれば、単に運動中に心拍数を測定した結果である場合もあります。

データ値が次のようになっているとします。

55
60
65
75
80
85

まず、データ値を合計し、値の数で割って標本平均を計算します。

$\frac{(55+60+65+75+80+85)}{6} = \frac{420}{6} = 70$

次に、各データ値と標本平均の差を計算します。

平均からの差
55-70 = -15
60-70 = -10
65-70 = -5
75-70 = 5
80-70 = 10
85-70 = 15

差を計算することで、各データ値が標本平均からどの程度離れているかがわかります。

次に、その差を2乗します。単純に差を合計すると、合計がゼロになり、データにばらつきがないことが示されますが、これは真実ではありません。差を合計する前に2乗すると、標本平均より上と下の両方の点について、平均からの距離の正の測定値が得られます。

平均からの差差の2乗
55-70 = -15225
60-70 = -10100
65-70 = -525
75-70 = 525
80-70 = 10100
85-70 = 15225

次に、2乗した差の合計を計算します。

$225+100+25+25+100+225=700$

データ値が6つあるため、上記の合計を 6 - 1 = 5 で割ります。

$\frac{700}{5} = 140$

なぜ6で割らないのでしょうか?簡単な答えは、これらの計算では標本平均が使用されたということです。標本平均と5つのデータ値がわかっている場合は、6番目のデータポイントを計算できます。この例では、平均を計算するときに、いわゆる1つの自由度を使用します。統計的に、n-1で割ると、偏りのない分散の推定値を得ることができます。

この時点で、標本分散が求められましたが、「2乗毎分心拍」という解釈しにくい単位で表されます。したがって、最後のステップは、平方根を取って標本標準偏差を求めます。

$\sqrt{140}=11.8$

6人の標本に基づいて、標本平均は70BPM、標準偏差は11.8BPMという妥当な結果になりました。

通常、標本標準偏差を計算するにはソフトウェアを使用します。標本標準偏差の計算式は次のとおりです。

$\sqrt{\frac{Σ^n_{i=1}(x_i - \overline{x})^2}{n-1}}$

上記の計算式では、標本にはn個のデータ値があります。各データ値はxで表されます。記号x̅は標本平均を表します。Σ記号は総和を示す記号です。この式では、例のように、データ値と標本平均の差の2乗をそれぞれ合計する必要があります。

母集団標準偏差

母集団全体のデータがあるという稀な状況では、標準偏差の計算は、母集団からの標本標準偏差の計算と若干異なる場合があります。母集団全体については、母集団の大きさは大文字のNで表されます。式は次のとおりです。

$\sqrt{\frac{Σ^N_{i=1}(x_i - μ)^2}{N}}$

上記の式では、母集団サイズ(N)と母集団平均(μ)を使用します。この計算式の背景にある考え方は、標本標準偏差の計算式と同じです。

標準偏差の理解

標準偏差の可視化

下の図3は、標準偏差がデータ値の広がりの推定値となる様子を示しています。中央の線は、前の例の6つの心拍数データ値の標本平均(70)を示しています。2つの値(65と80)については、プロットは平均からの差の計算を強調表示しています。

データ値が平均より低い場合は差が負になり、データ値が平均より大きい場合は正になることがわかります。差を2乗すると、正の差と負の差が相殺されて、なくなります。

すべての差の2乗を合計すると、各データ値と平均の間の広がりの組み合わせを取得できます。合計が小さいほど、データ値の広がりが小さいことを示し、合計が大きいほど、データ値の広がりが大きいことを意味します。

図3:2つのデータポイントの標本平均からの差

標準偏差の解釈

ほとんどの場合で平均と標準偏差の両方を報告します。これは標準偏差の文脈を理解するのに役立ちます。

標準偏差が小さいほど、より多くのデータ値が標本平均に近いことを意味します。標準偏差が大きいほど、データ値がより広範に広がり、一部の値は標本平均から離れていることがわかります。

たとえば、下の図4では、データの標本平均が13であるとします。オレンジ色の実線で示されている標本標準偏差が3の場合、データの多くが標本平均に近いことがわかります。青色の点線で示されている標本標準偏差が6の場合、データはより広範囲に広がっています。一部の値は標本平均から遠く離れています。

図4:標準偏差が大きいほど、データは平均から広がっていることを示し、標準偏差が小さいほど、データは平均に近いことを示します。

極端なデータ値が標本標準偏差に与える影響

極端なデータ値は標本標準偏差に大きな影響を与える可能性があります。再び、心拍数の例を見てみましょう。

先ほど、心拍数のデータ値は次のとおりでした。

55
60
65
75
80
85

標本平均は70BPM、標本標準偏差は11.8BPMであることがわかりました。

ここで、もう1人の心拍数を取得したとします。

55
60
65
75
80
85
140

すべての計算を繰り返すことはしませんが、これで標本平均は80BPM、標本標準偏差は28.6BPMになりました。この単一の極端な値は、標本平均と標本標準偏差の両方に大きな影響を与えました。

注意:見た目が正しくないという理由だけで、極端なデータ値を削除しないでください。まず、極端なデータ値が何らかのエラーによるものかどうかを調べましょう。エラーである場合は、正しい値を見つけてください。エラーが発生したかどうかを判断できない場合は、極端なデータ値を省略しないでください。このような場合、疑わしいデータポイントを含んだ分析と含まない分析の両方を報告することもできます。

心拍数データの場合、極端な値は人の実際の安静時心拍数である可能性があります。その場合、データ内に含めておく必要があります。極端な値は、安静時心拍数を測定するその他のデータ値と異なる誰かの運動直後の心拍数である場合があります。重要なのは、極端なデータ値を処理する方法を決定する前に、さらに調査する必要があるということです。

統計記号の使用

母集団の標準偏差と分散

母標準偏差は、計算式ではギリシャ文字の「シグマ」で表されます。記号はσです。

母分散はσ2で示されます。

多くの統計式では、仮説検定の定義や分析の式でσが使用されます。

ほとんどの場合、母集団標準偏差や母集団分散は未知であることを覚えておいてください。

標本標準偏差と分散

標本標準偏差は、計算式では斜体の小文字のsで示されます。

標本分散は、計算式ではs2として示されます。

いつ標準偏差を使用するか

連続データ: 適している

標準偏差は、連続データに適しています。このデータは、多くの可能な値を持つスケールで測定されます。連続データの例は次のとおりです。

  • 年齢
  • 血圧
  • 体重
  • 温度
  • 速度

これらすべての例で、標準偏差を計算することに意味があります。

図5:連続データで標準偏差を使用

順序データまたは名義データ:適していない

ここで定義されているように、標準偏差は順序データまたは名義データに適していません。このデータは、いくつかの可能な値を持つスケールのみで測定されます。順序データ値または名義データ値のセットの広がりを推定するためには、別の統計量があります。

順序データは通常、特定の順序でグループに分けられます。たとえば、「まったくそう思わない」から「非常にそう思う」までのスケールで意見を述べるように求められる調査では、回答は順序データとなります。以下の図6を参照してください。

名義データでも、標本はグループに分けられますが、特定の順序はありません。たとえば、生物学的性別と居住国は名義データです(図7)。標本では男性をM、女性をFとしたり、0と1を使ったりできます。居住国に関しては、国の略語を使用することも、数字を使用して国名をコーディングすることもできます。このデータに数値を使用すると、標本標準偏差を計算できますが、意味のある解釈にはなりません。

図6:順序データで標準偏差を使用しないでください。
図7:名義データで標準偏差を使用しないでください。

その他のばらつきの測定方法

標準偏差はデータの広がりを推定するための1つの方法です。範囲と四分位範囲(IQR)も広がりを推定します。標準偏差とは異なり、これらの統計はいずれもデータの中心を含みません。これらの統計量は、小さなデータセット(範囲)または歪んだデータセット(IQR)で使用できます。

範囲

範囲は、データの最小値と最大値の差です。

四分位範囲(IQR)

四分位範囲は、データの25パーセント点と75パーセント点の差です。したがって、IQRは範囲や標準偏差よりも極端な値の影響を受けにくくなります。データに極端な値があったり、歪んでいる場合は、IQRがデータセットの変動性を説明するために適切な選択肢となる可能性があります。