経験則
経験則の定義
正規分布データがある場合、経験則を使用するとすばやく理解できます。このルールは「68-95-99.7%則」または「3シグマのルール」とも呼ばれ、平均値から±1標準偏差、±2標準偏差、または±3標準偏差の範囲内に収まるデータの割合を表します。
これは、図1の正規分布のグラフを参照すると理解しやすくなります。グラフの中心(X軸のゼロ)はデータの平均値を表します。オレンジ色の点線の縦線は、平均値から±1標準偏差、±2標準偏差、±3標準偏差の位置に描かれています。
データの約68%が平均値の1標準偏差内にあることに注目してください。正規分布は理論上の母集団分布であることを思い出してください。母集団標準偏差は、記号sを使用します。このルールはしばしば、「データの68%は平均値から±s内に収まる」と記載されます。
同様に、データの約95%が平均値の2標準偏差内に収まっていることがわかります。これはしばしば、「データの95%は平均値から±2s内に収まる」と記載されます。
最後に、データの約99.7%は平均値の3標準偏差内に収まります。これはしばしば、「データの99.7%は平均値から±3s内に収まる」と記載されます。
実際には、真の母集団平均や母集団標準偏差が判明していることはほとんどありません。代わりに、標本平均と標本標準偏差を使用して推定してから、このルールを使用します。
経験則の使い方
データ分析の際に経験則をどのように適用できるでしょうか。データが正規分布していると仮定した場合、経験則を使用すると測定結果が特定の範囲に収まる確率を予測できます。平均からさまざまな標準偏差で発生する結果の割合が、経験則で説明されている期待の割合から逸脱していることがわかった場合、何か問題があるという貴重な手がかりを得ることができます。
1つの説明としては、データ内に重大な外れ値があるということが考えられます。たとえば、データが製造されたアイテムの特定の目標仕様(例:ミリメートル単位の寸法)の測定値で構成されている場合、外れ値が多いと製造工程の管理が不十分であり、注意が必要であることを意味する場合があります。
別の説明としては、さまざまな理由から、標本が大きな母集団の代表として十分でないことや、標本サイズが単に小さすぎるということが考えられます。