公開日: 09/19/2023

確率分布の統計的詳細

ここでは、「寿命の一変量」で用意されている確率分布や計算の詳細を説明します。理論や応用、そして以下で紹介するノンパラメトリックおよびパラメトリックな推定については、Meeker and Escobar(1998, ch. 2-5)に優れた説明があります。

推定値と信頼区間

閾値パラメータをもつ分布以外は、最尤法で推定されます。閾値パラメータをもつ分布で、最小の観測値が、打ち切りデータではなく、厳密な故障時間を示す値であった場合、ごく短い区間に含まれる区間打ち切りデータとして、その最小の観測値を処理します。そして、このような微調整をした後、最尤法を適用します。このような微調整をしないと、尤度が無限大となり、最尤法が行えない場合があります。このアプローチは、Meeker and Escobar(1998, p. 275)が提唱している方法とほぼ同じです。ただし、JMPでは、最小の厳密な故障時間だけを区間打ち切りにします。このような微調整をすると、閾値パラメータをもつ分布の尤度関数も、確実に有界になります。

「寿命の一変量」プラットフォームには、分布パラメータの信頼区間を計算する方法が2つ用意されています。「寿命の一変量」プラットフォームの起動ウィンドウで、それぞれ[Wald]または[尤度]を選択することにより、2つの方法のいずれかを選ぶことができます。デフォルトの設定は[Wald]です。累積分布関数の信頼区間は、標準化した変数に対してWald法に基づく信頼区間を計算し、それを累積分布関数に変換することで算出されます(Nelson, 1982, p. 332-333およびp. 346-347)。そのほかの信頼区間は、(変数変換を伴う)Wald法によって求められています(Meeker and Escobar 1998, ch. 7)。対数尤度の等高線図には、2パラメータに対する信頼領域が表示されます。この等高線は、尤度比から計算されています(Meeker and Escobar 1998, ch. 8)。

ノンパラメトリックな推定値

ノンパラメトリック法で推定された累積確率の曲線は、どのような分布をしているのかを知るのに有用です。データが非打ち切りと右側打ち切りだけの場合には、推定方法としてKaplan-Meier法が使われます。区間打ち切りや左側打ち切り、または、各種の打ち切りが混じったデータに対しては、Turnbull法が使われます。すべてのデータが右側打ち切りである場合、ノンパラメトリックな推定値は計算できないことを示すメッセージがレポートに表示されます。

確率プロット上にKaplan-Meier曲線を点でプロットする場合には、中間点が使われます。ここで、「中間点」とは、1時点前のKaplan-Meier推定値と、現時点のKaplan-Meier推定値との中間値(平均値)のことです。

パラメトリックな分布

ノンパラメトリック法で推定された累積確率の曲線は角ばっていますが、パラメトリック法の曲線は、よりシンプルで滑らかです。また、パラメトリック法では、分布の裾のほうの累積確率も、外挿により、算出できます。

メモ: JMPでは、多くの確率分布を、位置パラメータと尺度パラメータで表現します。対数正規分布の場合は、メディアン(中央値)もレポートに表示します。また、閾値をもつ分布は、位置と尺度のほかに、閾値パラメータも含んでいます。次節での数式において、位置パラメータをm、尺度パラメータをs、閾値パラメータをgと記します。

対数正規

ばらつきが指数的に生じるデータに対しては、対数正規分布がよく使用されます。対数正規分布は、同一で独立した、小さな正の値をとる確率変数を多数、掛け合わすことにより導出されます。対数正規分布の変数を対数変換したものは、正規分布に従います。対数正規分布が適用されるデータ例としては、医療費、金属疲労による亀裂の進展、殺菌剤が適用されてからの菌の生存時間などが挙げられます。確率密度関数の曲線は、右に大きく歪んでいます(右側の裾が長い)。対数正規分布の確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれ、m = 0およびs = 1の標準正規分布の確率密度関数と累積分布関数です。

Weibull

Weibull分布は、ハザードが時間とともに上昇または低下する故障時間データに適しています。形状パラメータbの値に基づいて、さまざまな種類のデータを非常に柔軟にモデル化できるため、信頼性分析で広く使われています。Weibull分布は、たとえば、電子部品・ローラーベアリング・キャパシタ(コンデンサ)・セラミックなどの故障時間データに使われてきました。尺度パラメータaと形状パラメータbを変更することで、さまざまな形のWeibull分布を作成できます。Weibullの確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

aは尺度パラメータ、bは形状パラメータです。Weibull分布は、bの値を変更することにより柔軟に形状が変わり、特にb = 1のときは指数分布になります。このようなパラメータ化のほかにも、多くの文献で使用され、JMPでも採用している方法として、位置パラメータm、および尺度パラメータsによってWeibull分布を表す方法もあります。これらは、次の式で簡単にabに変換できます。

ここに式を表示

および

ここに式を表示

Weibull分布の確率密度関数と累積分布関数は、このパラメータ表現においては、対数変換したデータが、位置パラメータm = log(a)と尺度パラメータs = 1/bをもつ最小極値分布に従うものとして表すことができます。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれ、標準最小極値分布(m = 0, s = 1)の確率密度関数と累積分布関数です。

対数ロジスティック

対数ロジスティック分布の確率密度関数は、対数正規分布のそれと形状が似ていますが、裾がより重いという特徴があります。がん患者の生存時間や財産データなど、非単調なハザード関数をもつデータにたびたび使われています。対数ロジスティック分布の確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれ、m = 0およびs = 1の標準ロジスティック分布の確率密度関数と累積分布関数です。

Fréchet

Weibull分布に従う確率変数の逆数をとったものは、Fréchet分布に従います。対数最大極値分布、またはFréchetの最大値分布とも呼ばれています。Fréchet分布は、一般に、金融データに適用されます。確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

また、より一般的なパラメータ表現を用いて、次式のようにも表されます。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれm = 0およびs = 1の標準最大極値分布の確率密度関数と累積分布関数です。

正規

正規分布は、比較的単純であるため、中心極限定理が適用できる多くの領域で最も広く使われています。しかし、信頼性分析ではほとんど利用されません。故障時間データでも、m > 0で、かつ、変動係数(s/m)が小さい場合には、正規分布があてはまるときもあります。ハザード関数の増加に上限がないことから、摩耗故障のデータに特に適しています。そのようなデータの例としては、白熱電球、トースターの電熱線、ワイヤーの機械的強度などが挙げられます。確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれ、m = 0およびs = 1の標準正規分布の確率密度関数と累積分布関数です。

最小極値

最小極値分布(SEV分布; Smallest Extreme Value distribution)は、左に歪んでいる非対称な分布です。2つのケースに適しています。1つは、短時間で故障するユニットが少ない(多数の観測値のうちごく少数が左裾にあるような)場合です。もう1つは、mに比べてsが小さいデータです(その場合、最小極値分布でゼロ以下になる確率が小さいため)。最小極値分布は、時間の経過とともにハザードが上昇するデータに適しています。データ例としては、高齢者の死亡率や、干ばつの間の降水量などが挙げられます。この分布は、Gumbel分布と呼ばれることもあります。確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれm = 0およびs = 1の標準最小極値分布の確率密度関数と累積分布関数です。

ロジスティック

ロジスティック分布は、形状が正規分布に似ていますが、裾が長いという特徴があります。推定される故障時間が負となっても構わない場合に使用されます。なお、二値応答や順序応答に対するロジスティック回帰モデルでは、ロジスティック分布が潜在的な分布として仮定されています。確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれ、m = 0およびs = 1の標準ロジスティック分布の確率密度関数と累積分布関数です。

最大極値

最大極値分布(LEV分布; Largest Extreme Value distribution)は、右に歪んでいる非対称な分布です。m > 0と比べてsが小さい故障時間データに使える可能性があります。この分布は、信頼性分析では一般的ではありませんが、大規模な洪水や極端な風速など、極端な自然現象の推定に役立ちます。確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれm = 0およびs = 1の標準最大極値分布の確率密度関数と累積分布関数です。

指数

信頼性分析では、1パラメータと2パラメータの指数分布が使われています。2パラメータ指数分布の確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

上の式で、qは尺度パラメータ、gは閾値パラメータです。信頼性分析では、g = 0の1パラメータ指数分布を頻繁に使います。JMPでは、1パラメータ指数分布だけが用意されています。指数分布は、平均寿命をはるかに超えてからも、一定して故障が起こるような部品の故障時間データによくあてはまります。ハザード(瞬間故障率)が一定であり、ユニットの年齢に依存しません。そのため、材質疲労や腐食、短期的摩耗が生じる機械部品の寿命データには適していません。ただし、ある種の頑健な電子部品のデータには適しています。絶縁油と誘電性流体の寿命を記述する例では、効果的に使われています(Nelson, 1990, p. 53)。

対数一般化ガンマ

対数一般化ガンマ分布には、最小極値分布・最大極値分布・正規分布などの多数の分布が含まれています。確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

ここで、−∞ < x < ∞w = [x – m]/s

ここに式を表示

です。また、

ここに式を表示

ここに式を表示

は、それぞれ対数ガンマ分布の確率密度関数と累積分布関数です。k > 0は形状パラメータです。上記の標準分布は、形状パラメータkに依存します。

メモ: JMPでは、数値計算を安定させるために一般化ガンマ分布の形状パラメータlが取りうる範囲を[-12,12]に制限しています。

拡張一般化ガンマ

拡張一般化ガンマ分布には、一般化ガンマ分布・Weibull分布・対数正規分布・Fréchet分布・ガンマ分布・指数分布などの多数の分布が含まれています。拡張一般化ガンマ分布は、打ち切りがほとんどないか、まったくないデータに特に適しています。この分布は、人間におけるガンの予後をモデル化するのに使われています。確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

上の式で、x > 0、w = [log(x) - m]/s

ここに式を表示

です。また、

ここに式を表示

ここに式を表示

は、それぞれ標準対数ガンマ分布の確率密度関数と累積分布関数です。k > 0は形状パラメータです。

上記の標準分布は、形状パラメータkに依存します。拡張一般化ガンマ分布についての詳細は、Meeker and Escobar(1998, ch. 5)で詳しく説明されています。

メモ: JMPでは、数値計算を安定させるために一般化ガンマ分布の形状パラメータlが取りうる範囲を[-12,12]に制限しています。

閾値パラメータをもつ分布

閾値パラメータをもつ分布は、対数-位置-尺度型の分布に、閾値パラメータを加えたものです。Weibull分布などを、閾値パラメータgを追加することで一般化した分布です。閾値パラメータを追加すると、分布の左端がシフトして0から離れます。閾値パラメータは、「シフトパラメータ」もしくは「最小値パラメータ」とも呼ばれ、すべてのユニットが閾値を超えて生存することから、「保証パラメータ」(guarantee parameter)と呼ばれることもあります。閾値パラメータを追加すると、分布が時間軸上でシフトしますが、分布の形状と広がりは変化しません。このような閾値分布は、中程度もしくは高程度に、分布がシフトしている場合に適しています。閾値パラメータがある対数-位置-尺度型の分布の確率密度関数と累積分布関数は、一般的に、次式のように表わされます。

ここに式を表示

ここに式を表示

上の式で、fFは、それぞれ、各分布の標準分布における確率密度関数と累積分布関数です。Weibull分布・対数正規分布・Fréchet分布・対数ロジスティック分布の閾値分布は以下のとおりです。上記の確率密度関数と累積分布関数を、各分布のものに置き換えることにより、導出されます。

メモ: 最小の観測値が厳密な故障時間の場合(つまり、最小の観測値が打ち切りデータではない場合)、JMPはその点の周りに小さな区間を設定し、その観測値を区間打ち切りとして扱います。このように厳密な故障時間のデータにおける最小値を区間打ち切りデータに変換すると、対数尤度関数を有界にし、推定が行えるようになります。最小の観測値が打ち切りデータである場合には、このような処理は行われません。

閾値 Weibull

3パラメータWeibull分布の確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

上の式で、m =log(a)、およびs= 1/bです。また、

ここに式を表示

および

ここに式を表示

は、それぞれm = 0およびs = 1の標準最小極値分布の確率密度関数と累積分布関数です。

閾値 対数正規

3パラメータ対数正規分布の確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれ、m = 0およびs = 1の標準正規分布の確率密度関数と累積分布関数です。

閾値 Fréchet

3パラメータFréchet分布の確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれm = 0およびs = 1の標準最大極値分布の確率密度関数と累積分布関数です。

閾値 対数ロジスティック

3パラメータ対数ロジスティック分布の確率密度関数と累積分布関数は、次式のとおりです。

ここに式を表示

ここに式を表示

これらの式で、

ここに式を表示

および

ここに式を表示

は、それぞれ、m = 0およびs = 1の標準ロジスティック分布の確率密度関数と累積分布関数です。

故障部分母集団の分布(DS分布)

信頼性試験では、故障につながる不具合がごく一部のユニットにしか生じないケースがあります。すべてのユニットが故障するわけではないため、通常の故障分布を使用すると、不適切な結果になる恐れがあります。一部の部分母集団だけに故障が生じる状態を表現したい場合には、DS分布(Defective Subpopulation distribution; 故障部分母集団分布)を用いてください。次のようなDS分布が用意されています。

DS 対数正規

DS Weibull

DS ロジスティック

DS Fréchet

DS分布の確率密度関数と累積分布関数は、次のように定義されます。

ここに式を表示

ここに式を表示

ここで

pは、全体に占める故障部分母集団の割合です。

tは寿命(故障時間)です。

msは、対応する故障部分母集団の確率密度関数と累積分布関数を使用して、通常の最尤法で推定されます。

f(z)およびF(z)は、それぞれ、標準分布の密度関数と累積分布関数です。たとえばWeibull分布の場合、次のようになります。

f(z) = exp(z-exp(z))、F(z) = 1 - exp(-exp(z))

DS分布のより詳細な情報については、Tobias and Trindad(2012, p. 321)を参照してください。

DS分布は、Meeker and Escobar(1998, ch. 11)では、「限定故障母集団(limited failurer population)」としても知られています。

ゼロ強調分布

ゼロ強調分布(Zero-Inflated distribution; ZI分布)は、t = 0において一定の割合(p)が故障しているデータに使用します。通常の分布で想定されるよりもゼロ時間での故障個数が多いデータに対して、ゼロ時間で故障が発生する確率を追加してモデル化します。「寿命の一変量」プラットフォームでは、[イベントまでの時間]データの最小値がゼロである場合に、次の4つのゼロ強調分布を使用できます。

ゼロ強調 対数正規(ZI 対数正規)

ゼロ強調 Weibull(ZI Weibull)

ゼロ強調 対数ロジスティック(ZI 対数ロジスティック)

ゼロ強調 Fréchet(ZI Fréchet)

ゼロ強調分布の確率密度関数と累積分布関数は、次のように定義されます。

ここに式を表示

ここに式を表示

ここで

pは、ゼロ値の割合です。

tは寿命(故障時間)です。

mおよびsは、位置と尺度を表すパラメータです。元のデータからゼロ値を除外した後、通常の最尤法で推定されます。

f(z)およびF(z)は、それぞれ、標準分布の密度関数と累積分布関数です。たとえばWeibull分布の場合、次のようになります。

f(z) = exp(z-exp(z)), F(z) = 1 - exp(-exp(z))

ゼロ強調分布の詳細については、Lawless(2003, p. 34)を参照してください。p = 1 - pおよびS1(t) = 1 - F(t)を代入すると、上の式が得られます。

詳細については、Meeker and Escobar(1995, p. 232)を参照してください。そこでは、一般的な混合分布の式が記載されています。Tobias and Trindadeで述べられている計算式において、a = p, Fd(t) = 1、およびFN(t) = F(t)を代入すると、上の式が得られます。

Bayes推定の事前分布

位置パラメータと尺度パラメータの事前分布には、次の分布が使用できます。

正規分布と対数正規分布。これらの事前分布は、ハイパーパラメータとして、位置(μ)と尺度(σ)を持ちます。これらの事前分布の詳細については、対数正規および正規を参照してください。

一様分布。ハイパーパラメータとして、下限と上限を持ちます。これらの下限と上限は、事前分布である一様分布が分布する範囲を決めます。

ガンマ分布。ハイパーパラメータとして、形状と尺度を持ちます。kとθをパラメータとしたガンマ分布が使用されます。

一点に固定された分布。ハイパーパラメータとして、位置を持ちます。これは退化した事前分布です。この事前分布では、パラメータは1つの値に固定されています。その1つの固定された値には、位置ハイパーパラメータに入力した値が使われます。

分位点パラメータの事前分布には、次の分布が使用できます。

正規分布と対数正規分布。99%を網羅するように範囲が設定されます。0.5パーセント点と99.5パーセント点で事前分布を指定します。このオプションが選択された場合、JMPは前述の位置ハイパーパラメータと尺度ハイパーパラメータに対する指定を取り消します。

一様分布。ハイパーパラメータとして、下限と上限を持ちます。下限と上限は、一様分布が分布する範囲を決めます。

対数一様分布。ハイパーパラメータとして、下限(a)と上限(b)を持ちます。この分布は、Log(a)からLog(b)までの対数スケール上に一様に分布します。

一点に固定された分布。ハイパーパラメータとして、位置を持ちます。これは退化した事前分布です。この事前分布では、パラメータは1つの値に固定されています。その1つの固定された値には、位置ハイパーパラメータに入力した値が使われます。

故障確率の事前分布には、次の分布が使用できます。

ベータ分布。次のいずれかの方法で、設定することができます。

推定値と推定誤差を指定することにより、それに対応した平均と分散を持つベータ分布を設定する。平均は「推定値」に入力された数値と同じで、分散は(推定誤差 / 100 × 推定値)^2と同じです。

ベータ分布の0.5パーセント点および99.5パーセント点を指定することにより、それに対応したベータ分布を設定する。こちらで指定すると、JMPは以前に指定されたハイパーパラメータの設定を取り消します。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).