发布日期: 08/07/2020

分布

本节提供有关“寿命分布”平台中的分布拟合的详细信息。Meeker and Escobar (1998, ch. 2-5) 是关于非参数和参数细节所依据的理论、应用和讨论的极佳信息来源。

估计和置信区间

所有分布的参数(除非另有说明)都使用最大似然估计值 (MLE) 来估计。唯一的例外是阈值分布。若最小的观测是一个精确失效,则该观测被视为具有小区间的区间删失。参数估计值是从这个稍作修改的数据集估计的 MLE。若不进行这项修改,似然会无界,所以 MLE 可能不存在。该方法类似于 Meeker and Escobar (1998, p. 275) 中所述的方法,只不过最小精确失效删失。这是为确保似然函数有界而对数据进行的最小更改。

“寿命分布”平台提供两种方法来计算分布参数的置信区间。这两种方法标记为“Wald”或“似然”,可在“寿命分布”平台的启动窗口中进行选择。Wald 置信区间用作默认设置。计算累积分布函数 (cdf) 的置信区间时,最初要计算标准化变量的 Wald 置信区间。接下来,这些区间变换为 cdf 尺度(Nelson, 1982, pp. 332–333 and pp. 346-347)。其他图形和刻画器中给出的置信区间变换为 Wald 区间 (Meeker and Escobar, 1998, chap. 7)。双参数分布的参数的联合置信区间显示在对数似然等高线图中。它们基于参数的近似似然比 (Meeker and Escobar, 1998, chap. 8)。

非参数拟合

非参数拟合说明分布的基本曲线。对于不含删失的数据(仅包含失效)以及观测同时包含失效和右删失的数据,JMP 使用 Kaplan-Meier 估计值。对于混合删失、区间删失或左删失,JMP 使用 Turnbull 估计值。若数据集仅包含右删失数据,则“非参数估计值”报表将指明无法计算非参数估计值。

“寿命分布”平台使用阶梯函数的中点估计值来构造概率图。中点估计值介于当前和前一个 Kaplan-Meier 估计值的中间位置(或二者的平均值)。

参数分布

参数分布提供比非参数分布更简明的分布拟合。失效时间分布的估计值也更平滑。参数模型还可用于外推(沿时间)到分布的下尾或上尾。

注意:“寿命分布”平台中的许多分布都按照位置和尺度参数化。对于对数正态拟合,还提供中位数。阈值参数还包含在阈值分布中。位置对应于 m,尺度对应于 s,阈值对应于 g

对数正态

对数正态分布常用于失效时间数据范围是 10 的几次幂的情形。该分布常常被视为许多较小的独立同分布的正数随机变量的乘积。这在数据值的对数呈现正态分布时是合理的。由对数正态分布正确建模的数据示例包括:医院费用数据、金属疲劳裂纹扩展,以及细菌在消毒剂控制下的存活时间。pdf 曲线通常呈现较强的右偏特点。对数正态 pdf 和 cdf 分别为:

其中

分别为标准化正态或 nor(m = 0, s = 1) 分布的 pdf 和 cdf。

Weibull

Weibull 分布可用于对具有递增或递减危险率的失效时间数据建模。由于该分布能够极为灵活地基于形状参数 b 的值对众多不同类型的数据建模,所以它经常用在可靠性分析中。 该分布已经成功用于描述电子元件、滚柱轴承、电容和陶瓷领域中的失效。可通过更改尺度参数 a 和形状参数 b 来显示 Weibull 分布的各种形状。Weibull pdf 和 cdf 通常表示如下:

其中,a 是尺度参数,b 是形状参数。Weibull 分布极为通用,因为它可以在 b = 1 时简化为指数分布。在文献和 JMP 中常用的备选参数化是将 s 用作尺度参数,将 m 用作位置参数。这些参数很容易通过使用以下定义转换为 ab 参数化:

Weibull 分布的 pdf 和 cdf 还表示为对数变换最小极值分布 (SEV)。这将使用位置尺度参数化,且 m = log(a),s = 1/b

其中

分别为标准化最小极值 (m = 0, s = 1) 分布的 pdf 和 cdf。

对数 Logistic

对数 Logistic 分布的 pdf 在形状上类似于对数正态分布,但尾部较厚。它经常用于对呈现非单调危险率函数特征的数据(如癌症死亡率和金融财富)建模。对数 Logistic pdf 和 cdf 分别为:

其中

分别为标准化 Logistic 或 Logis 分布 (m = 0, s = 1) 的 pdf 和 cdf。

Fréchet

Fréchet 分布称为对数最大极值分布,或者有时在其参数化为 Weibull 分布的倒数时称为 Fréchet 极大值分布。该分布常用于财务数据。pdf 和 cdf 分别为:

更一般的情况下参数化如下所示:

其中

分别为标准化最大极值 LEV(m = 0, s = 1) 分布的 pdf 和 cdf。

正态

正态分布是在多数统计领域中应用最广的分布,因为它相对简单并且易于应用中心极限定理。不过,正态分布极少用于可靠性领域。它对于 m > 0 且变异系数 (s / m) 较小的数据最为有用。由于危险率函数增长没有上限,所以它尤其适用于显现出磨损失效的数据。示例包括白炽灯泡、烤箱加热元件和金属丝的机械强度。pdf 和 cdf 分别为:

其中

分别为标准化正态或 nor(m = 0, s = 1) 分布的 pdf 和 cdf。

最小极值 (SEV)

这种非对称(左偏)分布适用于两种情况。第一种情况是数据指示少量的微弱单元位于分布的下尾处(该数据指示许多观测的最小数目)。第二种情况是在 s 相对于 m 较小时,因为在使用最小极值分布时小于零的概率较小。最小极值分布适用于描述危险率随单元老化而变大的数据。示例包括老年人死亡率和旱季的降雨量。该分布有时称为 Gumbel 分布。pdf 和 cdf 分别为:

其中

分别为标准化最小极值 SEV(m = 0, s = 1) 分布的 pdf 和 cdf。

Logistic

Logistic 分布的形状类似于正态分布,但尾部较长。Logistic 分布常用于在负数失效时间不构成问题的情况下对寿命数据建模。二值型或有序型响应的 Logistic 回归模型假定 Logistic 分布为潜在分布。pdf 和 cdf 分别为:

其中

分别为标准化 Logistic 或 Logis 分布 (m = 0, s = 1) 的 pdf 和 cdf。

最大极值 (LEV)

s 相对于 m > 0 较小,该右偏分布可用于对失效时间建模。该分布不常用于可靠性领域,但适用于估计自然极端现象,如特大洪水高度或极端风速。pdf 和 cdf 分别为:

其中

分别为标准化最大极值 LEV(m = 0, s = 1) 分布的 pdf 和 cdf。

指数

单参数和双参数指数分布均用于可靠性领域。双参数指数分布的 pdf 和 cdf 如下:

其中,q 是尺度参数,g 既是阈值参数也是位置参数。可靠性分析常常使用单参数指数分布,其 g = 0。指数分布适用于描述元件在远远超出期望寿命后显现出磨损的失效时间。该分布具有常数失效率,这意味着对于较小的时间增量,单元的失效与该单元龄无关。指数分布不应用于描述可能遭受疲劳、腐蚀或短期磨损的机械元件的寿命。但是,该分布适用于对特定类型的稳健电子元件建模。它已成功地被用来描述绝缘油和电介质流体的寿命 (Nelson, 1990, p. 53)。

对数广义 Gamma (LogGenGamma)

对数广义 Gamma 分布包含最小极值、最大极值和正态分布。pdf 和 cdf 分别为:

其中,-¥ < x < ¥w = [x – m]/s,且

请注意

分别为对数 Gamma 变量的 pdf 和 cdf,并且 k > 0 是形状参数。上面的标准化分布取决于形状参数 k

注意:在 JMP 中,广义 Gamma 分布的形状参数 l 限定在 [-12,12] 之间以便提供数值稳定性。

扩展广义 Gamma (GenGamma)

扩展的广义 Gamma 分布可包含许多其他分布作为特例,如:广义 Gamma、Weibull、对数正态、Fréchet、Gamma 和指数分布。它尤其适用于具有极少删失或没有删失的情况。该分布已成功地用于对人类癌症预后建模。pdf 和 cdf 分别为:

其中 x > 0,w = [log(x) – m]/s,且

请注意

分别为标准化对数 Gamma 变量的 pdf 和 cdf,并且 k > 0 是形状参数。

上面的标准化分布取决于形状参数 k。Meeker and Escobar (1998, ch. 5) 提供了关于扩展的广义 Gamma 分布的详细解释。

注意:在 JMP 中,广义 Gamma 分布的形状参数 l 限定在 [-12,12] 之间以便提供数值稳定性。

含有阈值参数的分布

阈值分布是带有阈值参数的对数-位置-尺度分布。上述有些分布通过添加阈值参数(表示为 g)进行了推广。添加该阈值参数后,分布的左端点偏移了 0 点位置。阈值参数有时称为偏移、最小值或保证参数,因为所有单元都至少生存到阈值时间。请注意,尽管添加阈值参数使分布在时间轴上的位置发生偏移,但分布的形状和散布程度并不受影响。阈值分布适用于拟合中度到重度偏移的分布。对数-位置-尺度阈值分布的 pdf 和 cdf 的一般形式如下所示:

其中,fF 分别是特定分布的 pdf 和 cdf。针对 Weibull、对数正态、Fréchet 和对数 Logistic 分布的特定阈值分布的示例显示如下;其中相应地适当替换了最小极值、正态、最大极值和 logis 的 pdf 和 cdf。

注意:若最小的观测是一个失效(而非删失),则 JMP 会围绕该点创建小区间,并将该观测视为区间删失。这种围绕失效的填充限定了对数似然函数并改善了估计效果。若最小观测删失,则不向观测添加任何额外填充。

阈值 Weibull

三参数 Weibull 分布的 pdf 和 cdf 如下:

其中,m =log(a)s= 1/b,其中

分别为标准化最小极值 SEV(m = 0, s = 1) 分布的 pdf 和 cdf。

阈值对数正态

三参数对数正态分布的 pdf 和 cdf 如下:

其中

分别为标准化正态或 N(m = 0, s = 1) 分布的 pdf 和 cdf。

阈值 Fréchet

三参数 Fréchet 分布的 pdf 和 cdf 如下:

其中

分别为标准化最大极值 LEV(m = 0, s = 1) 分布的 pdf 和 cdf。

阈值对数 Logistic

三参数对数 Logistic 分布的 pdf 和 cdf 如下:

其中

分别为标准化 Logistic 或 Logis 分布 (m = 0, s = 1) 的 pdf 和 cdf。

缺陷子总体分布

在可靠性实验中,有时仅有总体的一小部分存在导致失效的特定缺陷。由于并不是所有单元都可能导致失效,所以使用常规失效分布不合适并可能生成误导的结果。使用缺陷子总体分布选项可对仅在子总体上出现的失效建模。提供以下缺陷子总体分布:

缺陷子总体对数正态

缺陷子总体 Weibull

缺陷子总体对数 Logistic

缺陷子总体 Fréchet

缺陷子总体分布的 pdf 和 cdf 如下所示:

其中:

p 是缺陷子总体分数

t 是寿命事件的测量时间

ms 通过在从原始数据中删除零值后计算通常的最大似然估计来估计

f(z) 和 F(z) 分别为标准分布的密度和累积分布函数。例如,对于 Weibull 分布,

f(z) = exp(z-exp(z)) 且 F(z) = 1 - exp(-exp(z))。

有关缺陷子总体模型的详细信息,请参见 Tobias and Trindad (2012, p. 321)。

缺陷子总体模型在 Meeker and Escobar (1998, ch. 11) 中亦称有限失效总体模型。

零泛滥分布

若一定比例 (p) 的数据在 t = 0 时失效,就会使用零泛滥分布。当数据包含零的个数超出标准模型应有的个数时,就会造成零泛滥。在“寿命分布”平台中当事件时间数据以零作为最小值时,有四种零泛滥分布可用:这些分布包括:

零泛滥对数正态(ZI 对数正态)

零泛滥 Weibull (ZI Weibull)

零泛滥对数 Logistic(ZI 对数 Logistic)

零泛滥 Fréchet (ZI Fréchet)

零泛滥分布的 pdf 和 cdf 如下所示:

其中:

p 是零数据值的比例

t 是寿命事件的测量时间

ms 通过在从原始数据中删除零值后计算通常的最大似然估计来估计

f(z) 和 F(z) 分别为标准分布的密度和累积分布函数。例如,对于 Weibull 分布,

f(z) = exp(z-exp(z)) 且 F(z) = 1 - exp(-exp(z))。

有关零泛滥分布的详细信息,请参见 Lawless (2003, p. 34)。替换 p = 1 - p 和 S1(t) = 1 - F(t),以获取如上所示的形式。

有关可靠性分布的详细信息,请参见 Tobias and Trindade (1995, p. 232)。该参考文献提供了混合分布的一般形式。使用 Tobias and Trindade 中的参数化,可通过替换 a = pFd(t) = 1 和 FN(t) = F(t) 获得上述形式。

Bayes 估计的先验分布

以下分布可用于“先验位置尺度”:

正态/对数正态分布,带有位置 (mu) 和尺度 (sigma) 这两个超参数。相关定义,请参见对数正态正态

均匀分布,带有“下限”和“上限”这两个超参数,用于定义“均匀”分布的支持范围。

Gamma 分布,带有“形状”和“尺度”这两个超参数。使用 k/theta 参数化和概率密度函数。

点质量分布,带“位置”超参数。这是退化的先验;对于我们所指定先验分布的参数,只有一个可能值。这唯一的可能值等于为该“位置”超参数输入的值。

以下分布可用于“先验分位数参数”:

正态/对数正态分布(99% 的概率范围),使用分布的 0.005 和 0.995 百分位数指定先验分布。JMP 停止支持 mu 和 sigma。

均匀分布,带有“下限”和“上限”这两个超参数,用于定义“均匀”分布的支持范围。

对数均匀分布,带有“下限”(a) 和“上限”(b)。该分布是在 Log(a) 和 Log(b) 之间的对数尺度上均匀的分布。

点质量分布,带“位置”超参数。这是退化的先验;对于我们所指定先验分布的参数,只有一个可能值。这唯一的可能值等于为该“位置”超参数输入的值。

以下分布可用于“先验失效概率”:

Beta 分布,由概率密度函数来表征。

使用估计值和误差百分比(均值和方差)指定 Beta 先验值。均值等于在“估计值”中输入的数字,方差等于 (误差百分比 / 100 * 估计值)^2。

使用分布的 0.005 和 0.995 百分位数指定 Beta 先验值。JMP 停止支持超参数。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).