連続分布のあてはめ

基本的な統計分析 > 一変量の分布 > 「一変量の分布」プラットフォームの統計的詳細 > 連続分布のあてはめ

公開日: 04/01/2021

連続分布のあてはめ

ここでは、［連続分布のあてはめ］メニューで用意されている統計分布について説明します。

正規のあてはめ

［正規のあてはめ］オプションは、正規分布のパラメータを推定します。正規分布には、次のパラメータがあります。

• m（平均）は、X軸上での分布の位置を定義します。

• s（標準偏差）は、分布のばらつきまたは広がりを定義します。

標準正規分布では、m = 0、s = 1です。

確率密度関数: Equation shown here ただし ; ; 0 < s

E(x) = m

Var(x) = s2

Cauchyのあてはめ

［Cauchyのあてはめ］オプションは、位置m、尺度sのCauchy分布をあてはめます。

確率密度関数: Equation shown here ただし ; ; 0 < s

E(x) = 未定義

Var(x) = 未定義

SHASHのあてはめ

［SHASHのあてはめ］オプションは、sinh-arcsinh分布（正弦-逆正弦分布; SHASH分布）をあてはめます。SHASH分布は、正規分布に簡単に変換することができ、また正規分布を特殊なケースとして含んでいます。SHASH分布は、対称な分布と非対称な分布を含んでいます。SHASH分布の形状は、2つの形状パラメータ（gとd）によって決まります。SHASH分布の詳細については、Jones and Pewsey（2009）を参照してください。

確率密度関数: Equation shown here ただし ; 0 < d, s

ここで、

Equation shown here は標準正規分布の確率密度関数です。

Equation shown here

• g = 0、d = 1のSHASH分布は、位置、尺度がそれぞれq、sの正規分布と同じです。

• 変換sinh(w)は通常、m = 0、s = 1の正規分布に従います。

指数のあてはめ

指数分布は、工業製品の故障時間や、生物学分野の生存時間を分析するときに使われています。また、あるイベントが生じる間隔をモデル化するのにも使われます。たとえば、コンピュータのサーバーにクエリーが送られてくる時間、お客様がサービスカウンターに来る間隔、交換機が着信する間隔などです。

bが1であるWeibull分布は、指数分布です（このとき、Weibull分布のaは、指数分布のsに対応しています）。また、aが1であるガンマ分布も、指数分布です。

確率密度関数: Equation shown here ただし 0 < s; 0 ≤ x

E(x) = s

Var(x) = s2

Devore（1995）などによると、指数分布は無記憶性の分布です。「無記憶性」とは、t時間後にまだ正常に機能している部品の、t時点以降での生存時間分布（t時点以降の生存時間の条件付き分布）が、元の生存時間分布と同じになることです。

ガンマのあてはめ

［ガンマのあてはめ］オプションを選択すると、ガンマ分布があてはめられ、a > 0、s > 0 というパラメータが推定されます。aは分布の形状を、sは分布の尺度を表します。データはゼロより大きくなければなりません。

確率密度関数: Equation shown here ただし 0 < x; 0 < a,s

E(x) = as

Var(x) = as2

• s = 1の時のガンマ分布は、標準ガンマ分布と呼ばれています。σを変更すると、分布が横軸に沿って伸縮します。このようなパラメータは、一般に、尺度パラメータと呼ばれています。

• s = 2、a = n/2のときのガンマ分布は、カイ2乗分布 Equation shown here になります。

• a = 1のときのガンマ分布は、指数分布になります。

ガンマ分布の密度関数は、a ≤ 1の場合、常に減少します。a > 1の場合、0から最大値に達するまで増加した後、減少します。

対数正規のあてはめ

［対数正規のあてはめ］オプションを選択すると、2パラメータの対数正規分布があてはめられ、パラメータm（尺度）とs（形状）が推定されます。対数正規分布に従う変数Yを、X = ln(Y)と変換すると、Xは正規分布に従います。データはゼロより大きくなければなりません。

確率密度関数: Equation shown here ただし ; ; 0 < s

E(x) = Equation shown here

Var(x) = Equation shown here

Weibullのあてはめ

Weibull分布は、a（尺度パラメータ）とb（形状パラメータ）によって決められる分布です。特に機械装置や生物学上の寿命を推定するときのモデルとしてよく使用されます。

Weibull分布の確率密度関数は、次のような式で計算されます。

確率密度関数: Equation shown here ただし a,b > 0; 0 < x

E(x) = Equation shown here

Var(x) = Equation shown here

ここで、G(·)はガンマ関数です。

二重正規混合のあてはめと三重正規混合のあてはめ

［二重正規混合のあてはめ］は2つの正規分布の混合分布を、［三重正規混合のあてはめ］は3つの正規分布の混合分布をあてはめます。二峰性や多峰性のデータにも対応した柔軟な分布です。グループごとに1つずつ個別の平均、標準偏差、全体に占める割合が推定されます。以下の式で、kは混合分布に含まれる正規分布の数です。

確率密度関数: Equation shown here

E(x) = Equation shown here

Var(x) = Equation shown here

上の式で、mi、si、piはそれぞれ、第i群の平均、標準偏差、割合です。f(·)は標準正規分布の確率密度関数です。

Johnsonのあてはめ

［Johnsonのあてはめ］オプションは、Johnsonの分布システムのうち最適な分布を選んであてはめます。Johnsonの分布システムは、変換すると正規分布になる3つの分布で構成されています。3つの分布は、次のとおりです。

• Johnson Su（有界でない）

• Johnson Sb（パラメータにより定義される有界を上下に持つ）

• Johnson Sl（パラメータにより定義される有界を上下のいずれかに持つ対数正規分布）

選択された分布のあてはめに関するレポートのみが作成されます。Johnson分布の選択プロセスとパラメータ推定については、Slifker and Shapiro（1980）を参照してください。パラメータ推定では、最尤法を使用しません。

Johnson分布システムは、柔軟性が高いことで人気があります。これら3つで構成される分布システムは、歪度と尖度のあらゆる組み合わせに対応しており、柔軟にデータにあてはまります。ただし、やはり柔軟性の高いSHASH分布を、Johnson分布よりも優先することをお勧めします。

Zを標準正規変量とすると、分布システムは次のように定義されます。

Equation shown here

Johnson Suの場合は、

Equation shown here

Johnson Sbの場合は、

Equation shown here

Johnson Slの場合は、s = ±1で

Equation shown here

Johnson Su

確率密度関数: Equation shown here ただし -∞ < x, q, g < ∞; 0 < q,d

Johnson Sb

確率密度関数: Equation shown here ただし q < x < q+s; 0 < s

Johnson Sl

確率密度関数: Equation shown here ただし s = 1の場合q < x、 s = -1の場合q > x

ここで、f(·)は標準正規分布の確率密度関数です。

ベータのあてはめ

（0, 1）の区間を範囲とする標準ベータ分布は、割合などの0から1の範囲に収まるデータに対してよく使われています。［ベータのあてはめ］オプションを選択すると、ベータ分布の2つの形状パラメータa > 0、b > 0が推定されます。ベータ分布は、0から1の範囲外の値はとりません。

確率密度関数: Equation shown here ただし 0 < x < 1; 0 < s,a,b

E(x) = Equation shown here

Var(x) = Equation shown here

ここで、B(·)はベータ関数です。

すべてをあてはめ

このオプションを選択すると、用意されているほとんどすべての分布があてはめられ、「分布の比較」レポートにおいて、AICcが小さい順に、それらの分布の名前が表示されます。チェックボックスで分布を選択することによって、その分布のレポート、およびヒストグラム上に描かれる密度曲線の表示／非表示を切り替えることができます。

AICcおよびBICの計算式は以下のとおりです。

AICc = Equation shown here

BIC = Equation shown here

ここで、

– logLは対数尤度

– nは標本サイズ

– kはパラメータの個数

「AICc重み」列には、AICcの合計が1になるように正規化された値が示されます。AICc重みは、あてはめた複数の分布のいずれかが真である場合に特定の分布が真である確率と解釈できます。そのため、AICc重みが1に最も近い分布が良い分布となります。AICc重みは、複数のモデルのAICcから、次のように算出されます。

AICcの重み = exp[-0.5(AICc-min(AICc))] / sum(exp[-0.5(AICc-min(AICc))])

上の式で、min(AICc)は、あてはめた分布の中で最も小さいAICc値です。

「分布の比較」レポートに示される指標については、『基本的な回帰モデル』の尤度・AICc・BICを参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).