指定分布

拟合线性模型 > 广义回归模型 > 启动“广义回归”特质 > 指定分布

发布日期: 09/18/2023

指定分布

在“拟合模型”启动窗口中，将“广义回归”选作“特质”时即会显示“分布”选项。您可以在此处指定 Y 的分布。缩写形式 ZI 表示零泛滥。根据响应将分布分为三个类别：连续、离散和零泛滥。在下面介绍了这些选项。

注意：若您在“模型规格”窗口中指定了多个 Y 变量，则必须对指定的所有 Y 变量使用相同的响应分布。若想要在同一个“广义回归”报表中对不同的响应变量拟合不同的分布，则必须使用脚本。

连续型

正态

Y 服从均值为 m 且标准差为 s 的正态分布。正态分布是对称的，若样本足够大，很多其他分布可以使用中心极限定理将其近似为正态分布。m 的连结函数是恒等。即，Y 的均值表示为线性模型。

注意：若指定的“分布”为“正态”，则“标准最小二乘法”将取代“最大似然估计”方法。

正态分布的尺度参数为 s。若估计方法中无罚值，则尺度参数 s 的估计值为均方根误差 (RMSE)。RMSE 是 s2 的通常无偏估计量的平方根。除非涉及删失观测，否则所显示的结果等同于标准最小二乘法拟合。

注意：“广义回归”特质中使用的名义型变量的参数化不同于这些变量在使用“标准最小二乘法”特质时的参数化。由于存在这种差异，参数估计值不同于包含名义型或有序型效应的模型。

请参见分布的统计详细信息。

Cauchy

Y 服从位置参数为 m 且尺度参数为 s 的 Cauchy 分布。Cauchy 分布具有未定义的均值和标准差。中位数和众数都是 m。大多数数据本质上都不服从 Cauchy 分布。不过，它对包含较大比例的离群值（高达 50%）的数据执行稳健回归很有用。m 的连结函数是恒等。请参见分布的统计详细信息。

t(5)

Y 服从自由度为 5、位置参数为 m 且尺度参数为 s 的 Student t 分布。Student t 分布是对称的而且是一个稳健的选项，它跨越正态分布与 Cauchy 分布之间的空间。随着 Student t 分布中的自由度接近无穷大，该分布等价于正态分布。当 Student t 分布中的自由度等于 1 时，该分布等价于 Cauchy 分布。m 的连结函数是恒等。请参见分布的统计详细信息。

指数

Y 服从均值参数为 m 的指数分布。指数分布是向右偏斜的，通常用于对寿命或两个相继事件之间的时间建模。m 的连结函数为对数。请参见分布的统计详细信息。

Gamma

Y 服从均值参数为 m 且离散参数为 s 的 gamma 分布。gamma 分布很灵活，它包含一系列其他广泛使用的分布。例如，指数分布是 gamma 分布的特例，其中 s = m。卡方分布也可以从 gamma 分布导出。m 的连结函数为对数。请参见分布的统计详细信息。

Weibull

Y 服从均值参数为 m 且尺度参数为 s 的 Weibull 分布。Weibull 分布是较为灵活的分布，经常用于对寿命或事件发生前的时间建模。m 的连结函数是恒等。请参见分布的统计详细信息。

对数正态

Y 服从位置参数为 m 且尺度参数为 s 的对数正态分布。对数正态分布是向右偏斜的，通常用于对寿命或事件发生前的时间建模。m 的连结函数是恒等。请参见分布的统计详细信息。

负对数正态

Y 服从位置参数为 m 且尺度参数为 s 的负对数正态分布。负对数正态分布是向左偏斜的分布，仅可用于严格为负值的观测。m 的连结函数是恒等。负对数正态分布是对数正态分布的负变换。请参见分布的统计详细信息。

Beta

Y 服从均值参数为 m 且离散参数为 s 的 beta 分布。beta 的响应介于 0 到 1 之间（不包括 0 和 1），通常用于比例或比率建模。m 的连结函数为 Logit。请参见分布的统计详细信息。

分位数回归

分位数回归对响应的指定条件分位数建模。没有对所基于的分布的形式做任何假设。当您选择“分位数回归”时，在“分布”菜单下将显示一个“分位数”框。指定所需的分位数。

若您为“模型规格”窗口上的“分位数”指定 0.5（默认值），则分位数回归将对响应的条件中位数建模。当用回归系数表示的条件分位数的变化率取决于分位数时，分位数回归特别有用。分位数回归相对于最小二乘回归的一个优势是：它对具有非纯一条件分布的数据建模很灵活。

通过使用迭代方法使目标函数最小化来拟合分位数回归。有关分位数回归的详细信息，请参见 Koenker and Hallock (2001) 和 Portnoy and Koenker (1997)。

当您选择“分位数回归”时，“最大似然”是唯一可用的估计方法，“无”是唯一可用的验证方法。

注意：若分位数回归拟合要花很长时间才完成，将显示一个进度条。该进度条显示目标函数的相对变化。当您点击“接受当前估计值”时，计算将停止，报告的参数估计值将对应于此时的最佳模型拟合。

Cox 比例风险

Cox 比例危险模型是含有预测变量的事件时间数据的回归模型。它基于预测变量与危险率函数之间的相乘关系，可用于检查预测变量对于生存时间的效应。该模型涉及一个任意基线危险率函数，该函数通过预测变量统一尺度以提供常规危险率函数。比例风险模型为每个预测变量生成参数估计值和标准误差。Cox 比例危险模型最初是由 D. R. Cox (1972)提出的。有关比例风险模型的详细信息，请参见 Kalbfleisch and Prentice (2002)。

选择 Cox 比例风险时，可用的验证方法只有 BIC 和 AICc。此外，岭估计方法也不可用。

注意：若响应中有结值，则使用 Efron 似然。请参见 Efron (1977)。这种处理结值的方法不同于在“拟合模型”平台的“比例风险”特质或“拟合比例风险”平台中使用的方法。

离散

二项

Y 服从参数为 p 和 n 的二项分布。响应 Y 指示所有试验中具有固定概率 p 的 n 个独立试验中的总成功次数。该分布允许使用样本大小列。若未列出任何列，则假定样本大小为 1。p 的连结函数为 Logit。若选择建模类型为“名义型”的二值响应变量，则只有“二项”是可用的响应分布。请参见分布的统计详细信息。

当您选择“二项”作为“分布”时，必须使用以下方式之一指定响应变量。

‒ 未汇总：若您的数据未汇总为事件频数，指定一个二值列作为响应。若该列的建模类型为名义型，那么您可将其中一个水平指定为“目标水平”。默认“目标水平”值是基于水平顺序的两个水平中的较高者。

‒ 已使用“频数”列汇总：若您的数据已汇总为成功和失败的频数，则指定一个二值列作为响应。若该列的建模类型为名义型，那么您可将其中一个水平指定为“目标水平”。默认“目标水平”值是基于水平顺序的两个水平中的较高者。将频数列分配给频数角色。

‒ 已汇总且将样本大小列输入为第二个 Y：若您的数据已汇总为事件（成功）和试验的频数，则按如下顺序将两个连续列指定为 Y：成功次数的计数和试验次数的计数。

注意：若指定的“分布”为“二项”，则“Logistic 回归”将取代“最大似然估计”方法。

Beta 二项

Y 服从成功概率为 p、试验次数为 n 且过度离散参数为 d 的 beta 二项分布。该分布是过度离散版本的二项分布。

运行 JMP Samples/Scripts 文件夹中的 demoBetaBinomial.jsl，将具有离散参数 d 的 beta 二项分布与具有参数 p 且 n = 20 的二项分布进行比较。

beta 二项分布对于每个观测要求样本大小大于 1。因此，用户必须指定一个样本大小列。要插入样本大小列，请按如下顺序将两个连续列指定为 Y：成功次数和试验次数。p 的连结函数为 Logit。请参见分布的统计详细信息。

多项式

Y 服从有三个或更多离散水平的多项式分布。响应变量的建模类型必须为名义型或有序型。该模型为响应变量的每个水平拟合单独的截距和效应参数。若响应变量有 k 个水平，则模型包含 k - 1 个截距和效应参数。多项式分布的连结函数是多项式 Logit。请参见“名义型响应”。

有序型 Logistic

Y 服从包含有序型水平的多项式分布。响应变量的建模类型必须为有序型。该模型为响应变量的每个水平拟合截距。效应参数对于响应变量的所有水平都是相同的。有序型 Logistic 分布的连结函数是有序的 Logit。请参见“有序型响应”。

注意：“广义回归”中的“有序型 Logistic”的截距参数化不同于“拟合模型”的“有序型 Logistic”特质的截距参数化。“广义回归”中的第一个截距项对应于“有序型 Logistic”特质中的第一个截距项。“广义回归”中的后续截距项是响应变量的有序水平的截距项之间的相邻差值。

Poisson

Y 服从均值为 l 的 Poisson 分布。Poisson 分布通常对给定时间间隔中的事件数建模，经常表示为计数数据。l 的连结函数为对数。即使 Y 采用非整数值，Poisson 回归也是允许的。请参见分布的统计详细信息。

负二项

Y 服从均值为 m 且离散参数为 s 的负二项分布。负二项分布通常对指定失败次数之前的成功次数建模。负二项分布也等价于某些条件下的 Gamma Poisson 分布。有关负二项和 Gamma Poisson 之间关系的详细信息，请参见《基本分析》中的“分布”。

运行 JMP Samples/Scripts 文件夹中的 demoGammaPoisson.jsl，将具有均值 l 和离散参数 s 的 Gamma Poisson 分布与具有均值 l 的 Poisson 分布进行比较。

m 的连结函数为对数。即使 Y 采用非整数值，负二项回归也是允许的。请参见分布的统计详细信息。

零泛滥

零泛滥二项

Y 服从参数为 p、n 且零泛滥参数为 p 的零泛滥二项分布。响应 Y 指示所有试验中具有固定概率 p 的 n 个独立试验中的总成功次数。该分布允许使用样本大小列。若未列出任何列，则假定样本大小为 1。p 的连结函数为 Logit。请参见分布的统计详细信息。

零泛滥 Beta 二项

Y 服从成功概率为 p、试验次数为 n、过度离散参数为 d 且零泛滥参数为 p 的 beta 二项分布。该分布是过度离散版本的零泛滥二项分布。零泛滥 beta 二项分布对于每个观测要求样本大小大于 1。因此，用户必须指定一个样本大小列。要插入样本大小列，请按如下顺序将两个连续列指定为 Y：成功次数和试验次数。p 的连结函数为 Logit。请参见分布的统计详细信息。

零泛滥 Poisson

Y 服从均值参数为 l 且零泛滥参数为 p 的零泛滥 Poisson 分布。参数 l 是基于来自 Poisson 分布的观测值（而非来自于泛滥的零值）的条件均值。l 的连结函数为对数。即使 Y 采用无观测零值或非整数值，零泛滥 Poisson 回归也是允许的。请参见分布的统计详细信息。

零泛滥负二项

Y 服从位置参数为 m、离散参数为 s、且零泛滥参数为 p 的零泛滥负二项分布。参数 m 是基于来自负二项分布的观测值（而非来自于泛滥的零值）的条件均值。m 的连结函数为对数。即使 Y 采用无观测零值或非整数值，零泛滥负二项回归也是允许的。请参见分布的统计详细信息。

零泛滥 Gamma

Y 服从均值参数为 m 且零泛滥参数为 p 的零泛滥 gamma 分布。在很多时候，您可能认为非零响应服从 gamma 分布。这对于保险索赔是成立的：索赔值近似服从 gamma 分布，但是对于没有任何索赔的保险单，数据中也有零。零泛滥 gamma 可以直接处理这类数据而不必将数据分为零和非零响应。参数 m 是基于来自 gamma 分布的观测值（而非来自于泛滥的零值）的条件均值。m 的连结函数为对数。请参见分布的统计详细信息。

表 6.1 列出了被分配各种分布的 Y 变量的数据类型、建模类型和其他要求。

表 6.1 服从各种分布的 Y 的要求
分布	数据类型	建模类型	其他
正态	数值	连续
Cauchy	数值	连续
t(5)	数值	连续
指数	数值	连续	正值
Gamma	数值	连续	正值
Weibull	数值	连续	正值
对数正态	数值	连续	正值
负对数正态	数值	连续	负
Beta	数值	连续	介于 0 到 1 之间
分位数回归	数值	连续
Cox 比例风险	数值	连续	非负
二项，未汇总	任意	任意	二值
二项，已使用“频数”列汇总	任意	任意	二值
二项，已汇总且将计数列输入为第二个 Y	数值	连续	非负
Beta 二项	数值	连续	非负
多项式	任意	有序型或名义型
有序型 Logistic	任意	有序型
Poisson	数值	任意	非负
负二项	数值	任意	非负
零泛滥二项	数值	任意	非负
零泛滥 Beta 二项	数值	任意	非负
零泛滥 Poisson	数值	任意	非负
零泛滥负二项	数值	任意	非负
零泛滥 Gamma	数值	连续	非负

有关这些分布如何参数化的详细信息，请参见分布的统计详细信息。表 6.2 汇总了这些详细信息。

表 6.2 分布、参数和连结函数
分布	参数	均值模型连结函数
正态	m, s	恒等(m)
Cauchy	m, s	恒等(m)
t(5)	m, s	恒等(m)
指数	m	Log(m)
Gamma	m, s	Log(m)
Weibull	m, s	恒等(m)
对数正态	m, s	恒等(m)
负对数正态	m, s	恒等(m)
Beta	m	Logit(m)
分位数回归	m	恒等(m)
Cox 比例风险	m	Log(m)
二项	n, p	Logit(p)
Beta 二项	n, p, d	Logit(p)
多项式	n, p1, ..., pk	Multinomial Logit(p1, ..., pk)
有序型 Logistic	p1, ..., pk-1	Ordinal Link(p1, ..., pk-1)
Poisson	L	Log(m)
负二项	m, s	Log(m)
零泛滥二项	n, p, p（零泛滥）	Logit(p)
零泛滥 Beta 二项	n, p, d, p（零泛滥）	Logit(p)
零泛滥 Poisson	l, p（零泛滥）	Log(m)
零泛滥负二项	m, s, p （零泛滥）	Log(m)
零泛滥 Gamma	m, s, p （零泛滥）	Log(m)

在选择合适的分布后，点击运行。随即显示“广义回归”报表窗口。

需要更多信息？有问题？从 JMP 用户社区得到解答 (community.jmp.com).