連続分布のあてはめの統計的詳細

基本的な統計分析 > 一変量の分布 > 「一変量の分布」プラットフォームの統計的詳細 > 連続分布のあてはめの統計的詳細

公開日: 09/19/2023

連続分布のあてはめの統計的詳細

ここでは、「一変量の分布」プラットフォームの［連続分布のあてはめ］メニューにあるオプションについて説明します。特に指定をしない場合、パラメータ推定値の信頼区間は最尤法を用いて計算されます。Y列に「検出限界」列プロパティがある場合に［連続分布のあてはめ］のオプションを使用すると、打ち切りを考慮して確率分布があてはめられます。この時、JMPで用意されている確率分布のいくつかだけしか、打ち切りのあるデータをサポートしていません。打ち切りのあるデータへの分布のあてはめについて詳しくは、Meeker and Escobar（1998）を参照してください。

正規のあてはめ

［正規のあてはめ］オプションは、正規分布の2つのパラメータを推定します。

• m（平均）は、X軸上での分布の位置を定義します。

• s（標準偏差）は、分布のばらつきまたは広がりを定義します。

標準正規分布では、m = 0、s = 1です。

確率密度関数: ここに式を表示ただし ; ; 0 < s

E(x) = m

Var(x) = s2

メモ: 「正規分布のあてはめ」での平均の信頼区間も、通常の方法であるt分布に基づく方法に戻されました。「正規分布のあてはめ」での標準偏差の信頼区間も、通常の方法であるc2分布に基づく方法に戻されました。

Cauchyのあてはめ

［Cauchyのあてはめ］オプションは、位置m、尺度sのCauchy分布をあてはめます。

確率密度関数: ここに式を表示ただし ; ; 0 < s

E(x) = 未定義

Var(x) = 未定義

Studentのtのあてはめ

［Studentのtのあてはめ］オプションは、位置m、尺度s、自由度nのStudentのt分布をあてはめます。

確率密度関数: ここに式を表示

ただしここに式を表示 ; ; 0 < s; 1 ≤ n

SHASHのあてはめ

［SHASHのあてはめ］オプションは、sinh-arcsinh分布（正弦-逆正弦分布; SHASH分布）をあてはめます。SHASH分布は、正規分布に簡単に変換することができ、また正規分布を特殊なケースとして含んでいます。SHASH分布は、対称な分布と非対称な分布を含んでいます。SHASH分布の形状は、2つの形状パラメータ（gとd）によって決まります。SHASH分布の詳細については、Jones and Pewsey（2009）を参照してください。

確率密度関数: ここに式を表示ただし ; 0 < d, s

ここで、

ここに式を表示は、標準正規分布の確率密度関数です。

ここに式を表示

• g = 0、d = 1のSHASH分布は、位置、尺度がそれぞれq、sの正規分布と同じです。

• 変換sinh(w)は通常、m = 0、s = 1の正規分布に従います。

指数のあてはめ

指数分布は、工業製品の故障時間や、生物学分野の生存時間を分析するときに使われています。また、あるイベントが生じる間隔をモデル化するのにも使われます。たとえば、コンピュータのサーバーにクエリーが送られてくる時間、お客様がサービスカウンターに来る間隔、交換機が着信する間隔などです。

bが1であるWeibull分布は、指数分布です（このとき、a = sと対応しています）。また、aが1であるガンマ分布も、指数分布です。

確率密度関数: ここに式を表示ただし 0 < s; 0 ≤ x

E(x) = s

Var(x) = s2

Devore（1995）などによると、指数分布は無記憶性の分布です。「無記憶性」とは、t時間後にまだ正常に機能している部品の、t時点以降での生存時間分布（t時点以降の生存時間の条件付き分布）が、元の生存時間分布と同じになることです。

ガンマのあてはめ

［ガンマのあてはめ］オプションを選択すると、ガンマ分布があてはめられ、a > 0、s > 0 というパラメータが推定されます。aは分布の形状を、sは分布の尺度を表します。データはゼロより大きくなければなりません。

確率密度関数: ここに式を表示ただし 0 < x; 0 < a,s

E(x) = as

Var(x) = as2

• s = 1の時のガンマ分布は、標準ガンマ分布と呼ばれています。σを変更すると、分布が横軸に沿って伸縮します。このようなパラメータは、一般に、尺度パラメータと呼ばれています。

• s = 2、a = n/2のときのガンマ分布は、カイ2乗分布ここに式を表示になります。

• a = 1のときのガンマ分布は、指数分布になります。

ガンマ分布の密度関数は、a ≤ 1の場合、常に減少します。a > 1の場合、0から最大値に達するまで増加した後、減少します。

対数正規のあてはめ

［対数正規のあてはめ］オプションを選択すると、2パラメータの対数正規分布があてはめられ、パラメータm（尺度）とs（形状）が推定されます。対数正規分布に従う変数Yを、X = ln(Y)と変換すると、Xは正規分布に従います。データはゼロより大きくなければなりません。

確率密度関数: ここに式を表示ただし ; ; 0 < s

E(x) = ここに式を表示

Var(x) = ここに式を表示

Weibullのあてはめ

Weibull分布は、a（尺度パラメータ）とb（形状パラメータ）によって決められる分布です。特に機械装置や生物学上の寿命を推定するときのモデルとしてよく使用されます。

Weibull分布の確率密度関数は、次のように定義されます。

確率密度関数: ここに式を表示ただし a,b > 0; 0 < x

E(x) = ここに式を表示

Var(x) = ここに式を表示

ここで、G(·)はガンマ関数です。

二重正規混合のあてはめと三重正規混合のあてはめ

［二重正規混合のあてはめ］は2つの正規分布の混合分布を、［三重正規混合のあてはめ］は3つの正規分布の混合分布をあてはめます。二峰性や多峰性のデータにも対応した柔軟な分布です。グループごとに1つずつ個別の平均、標準偏差、全体に占める割合が推定されます。以下の式で、kは混合分布に含まれる正規分布の数です。

確率密度関数: ここに式を表示

E(x) = ここに式を表示

Var(x) = ここに式を表示

上の式で、mi、si、piはそれぞれ、第i群の平均、標準偏差、割合です。f(·)は、標準正規分布の確率密度関数です。

メモ: 正規混合分布のパラメータ推定値の信頼区間は、Wald法によって計算されます。

Johnsonのあてはめ

［Johnsonのあてはめ］オプションは、Johnsonの分布システムのうち最適な分布を選んであてはめます。Johnsonの分布システムは、変換すると正規分布になる3つの分布で構成されています。3つの分布は、次のとおりです。

• Johnson Su（この分布は、有界ではありません）

• Johnson Sb（この分布は、パラメータにより定義される有界を上下に持ちます）

• Johnson Sl（この分布は、パラメータにより定義される有界を上下のいずれかに持つ対数正規分布です）

選択された分布のあてはめに関するレポートのみが作成されます。Johnson分布の選択方法とパラメータ推定については、Slifker and Shapiro（1980）を参照してください。パラメータ推定では、最尤法を使用しません。

Johnson分布システムは、柔軟性が高いことで人気があります。これら3つで構成される分布システムは、歪度と尖度のあらゆる組み合わせに対応しており、柔軟にデータにあてはまります。しかし、SHASH分布も非常に柔軟性が高いので、Johnson分布よりもSHASH分布をお勧めします。

Zを標準正規変量とすると、分布システムは次のように定義されます。

ここに式を表示

Johnson Suの場合は、

ここに式を表示

Johnson Sbの場合は、

ここに式を表示

Johnson Slの場合は、s = ±1で

ここに式を表示

Johnson Su

確率密度関数: ここに式を表示ただし -∞ < x, q, g < ∞; 0 < q,d

Johnson Sb

確率密度関数: ここに式を表示ただし q < x < q+s; 0 < s

Johnson Sl

確率密度関数: ここに式を表示ただし s = 1の場合q < x、 s = -1の場合q > x

ここで、f(·)は標準正規分布の確率密度関数です。

メモ: Johnson分布のパラメータ推定値の信頼区間は、Wald法によって計算されます。

ベータのあてはめ

（0, 1）の区間を範囲とする標準ベータ分布は、割合などの0から1の範囲に収まるデータに対してよく使われています。［ベータのあてはめ］オプションを選択すると、ベータ分布の2つの形状パラメータa > 0、b > 0が推定されます。ベータ分布は、0から1の範囲外の値はとりません。

確率密度関数: ここに式を表示ただし 0 < x < 1; 0 < s,a,b

E(x) = ここに式を表示

Var(x) = ここに式を表示

ここで、B(·)はベータ関数です。

すべてをあてはめ

このオプションを選択すると、用意されているほとんどすべての分布があてはめられ、「分布の比較」レポートにおいて、AICcが小さい順に、それらの分布の名前が表示されます。チェックボックスで分布を選択することによって、その分布のレポート、およびヒストグラム上に描かれる密度曲線の表示／非表示を切り替えることができます。

AICcとBICの計算式は以下のとおりです。

AICc = ここに式を表示

BIC = ここに式を表示

ここで

– logLは、対数尤度。

– nは、標本サイズ。

– kは、パラメータの個数。

「AICc重み」列には、AICcの合計が1になるように正規化された値が示されます。AICc重みは、あてはめた複数の分布のいずれかが真である場合に特定の分布が真である確率と解釈できます。そのため、AICc重みが1に最も近い分布が良い分布となります。AICc重みは、複数のモデルのAICcから、次のように算出されます。

AICcの重み = exp[-0.5(AICc-min(AICc))] / sum(exp[-0.5(AICc-min(AICc))])

上の式で、min(AICc)は、あてはめた分布の中で最も小さいAICc値です。

「分布の比較」レポートに示される指標については、『基本的な回帰モデル』の尤度・AICc・BICを参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).