当您从特质菜单中选择广义回归时,将显示分布选项。您可以在此处指定 Y 的分布。缩写形式 ZI 表示零泛滥。根据响应将分布分为三个类别:连续、离散和零泛滥。在下面介绍了这些选项。
注意:若您在“模型规格”窗口中指定了多个 Y 变量,则必须对指定的所有 Y 变量使用相同的响应分布。若想要在同一个“广义回归”报表中对不同的响应变量拟合不同的分布,则必须使用脚本。
正态
Y 服从均值为 μ 且标准差为 σ 的正态分布。正态分布是对称的,若样本足够大,很多其他分布可以使用中心极限定理将其近似为正态分布。μ 的连结函数是恒等。即,Y 的均值表示为线性模型。
注意:若指定的“分布”为“正态”,则“标准最小二乘法”将取代“最大似然估计”方法。
正态分布的尺度参数为 σ。 若估计方法中无罚值,则尺度参数 σ 的估计值为均方根误差 (RMSE)。RMSE 是 σ2 的通常无偏估计量的平方根。除非涉及删失观测,否则所显示的结果等同于标准最小二乘法拟合。
注意:“广义回归”特质中使用的名义型变量的参数化不同于这些变量在使用“标准最小二乘法”特质时的参数化。由于存在这种差异,参数估计值不同于包含名义型或有序型效应的模型。
请参见分布的统计详细信息。
Cauchy
Y 服从位置参数为 μ 且尺度参数为 σ 的 Cauchy 分布。Cauchy 分布具有未定义的均值和标准差。中位数和众数都是 μ。大多数数据本质上都不服从 Cauchy 分布。不过,它对包含较大比例的离群值(高达 50%)的数据执行稳健回归很有用。μ 的连结函数是恒等。请参见分布的统计详细信息。
t(5)
Y 服从自由度为 5、位置参数为 μ 且尺度参数为 σ 的 Student t 分布。Student t 分布是对称的而且是一个稳健的选项,它跨越正态分布与 Cauchy 分布之间的空间。随着 Student t 分布中的自由度接近无穷大,该分布等价于正态分布。当 Student t 分布中的自由度等于 1 时,该分布等价于 Cauchy 分布。μ 的连结函数是恒等。请参见分布的统计详细信息。
指数
Y 服从均值参数为 μ 的指数分布。指数分布是向右偏斜的,通常用于对寿命或两个相继事件之间的时间建模。μ 的连结函数为对数。请参见分布的统计详细信息。
Gamma
Y 服从均值参数为 μ 且离散参数为 σ 的 gamma 分布。gamma 分布很灵活,它包含一系列其他广泛使用的分布。例如,指数分布是 gamma 分布的特例,其中 σ = μ?卡方分布也可以从 gamma 分布导出。μ 的连结函数为对数。请参见分布的统计详细信息。
Weibull
Y 服从均值参数为 μ 且尺度参数为 σ 的 Weibull 分布。Weibull 分布是较为灵活的分布,经常用于对寿命或事件发生前的时间建模。μ 的连结函数是恒等。请参见分布的统计详细信息。
对数正态
Y 服从均值参数为 μ 且尺度参数为 σ 的对数正态分布。对数正态分布是向右偏斜的,通常用于对寿命或事件发生前的时间建模。μ 的连结函数是恒等。请参见分布的统计详细信息。
Beta
Y 服从均值参数为 μ 且离散参数为 σ 的 beta 分布。beta 的响应介于 0 到 1 之间(不包括 0 和 1),通常用于比例或比率建模。μ 的连结函数为 Logit。请参见分布的统计详细信息。
分位数回归
分位数回归对响应的指定条件分位数建模。没有对所基于的分布的形式做任何假设。当您选择“分位数回归”时,在“分布”菜单下将显示一个“分位数”框。指定所需的分位数。
若您为“模型对话框”窗口上的“分位数”指定 0.5(默认值),则分位数回归将对响应的条件中位数建模。当用回归系数表示的条件分位数的变化率取决于分位数时,分位数回归特别有用。分位数回归相对于最小二乘回归的一个优势是:它对具有非纯一条件分布的数据建模很灵活。
通过使用迭代方法使目标函数最小化来拟合分位数回归。有关分位数回归的详细信息,请参见 Koenker and Hallock (2001) 和 Portnoy and Koenker (1997)。
当您选择“分位数回归”时,“最大似然”是唯一可用的估计方法,“无”是唯一可用的验证方法。
注意:若分位数回归拟合要花很长时间才完成,将显示一个进度条。该进度条显示目标函数的相对变化。当您点击“接受当前估计值”时,计算将停止,报告的参数估计值将对应于此时的最佳模型拟合。
Cox 比例风险
Cox 比例危险模型是含有预测变量的事件时间数据的回归模型。它基于预测变量与危险率函数之间的相乘关系,可用于检查预测变量对于生存时间的效应。该模型涉及一个任意基线危险率函数,该函数通过预测变量统一尺度以提供常规危险率函数。比例风险模型为每个预测变量生成参数估计值和标准误差。Cox 比例危险模型最初是由 D. R. Cox (1972)提出的。有关比例风险模型的详细信息,请参见 Kalbfleisch and Prentice (2002)。
选择 Cox 比例风险时,可用的验证方法只有 BIC 和 AICc。此外,岭估计方法也不可用。
注意:若响应中有结值,则使用 Efron 似然。请参见 Efron (1977)。这种处理结值的方法不同于在“拟合模型”平台的“比例风险”特质或“拟合比例风险”平台中使用的方法。
二项
Y 服从参数为 p 和 n 的二项分布。响应 Y 指示所有试验中具有固定概率 p 的 n 个独立试验中的总成功次数。该分布允许使用样本大小列。若未列出任何列,则假定样本大小为 1。p 的连结函数为 Logit。若选择建模类型为“名义型”的二值响应变量,则只有“二项”是可用的响应分布。请参见分布的统计详细信息。
当您选择“二项”作为“分布”时,必须使用以下方式之一指定响应变量。
‒ 未汇总:若您的数据未汇总为事件频数,指定一个二值列作为响应。若该列的建模类型为名义型,那么您可将其中一个水平指定为“目标水平”。默认“目标水平”值是基于水平顺序的两个水平中的较高者。
‒ 已使用“频数”列汇总:若您的数据已汇总为成功和失败的频数,则指定一个二值列作为响应。若该列的建模类型为名义型,那么您可将其中一个水平指定为“目标水平”。默认“目标水平”值是基于水平顺序的两个水平中的较高者。将频数列分配给频数角色。
‒ 已汇总且将样本大小列输入为第二个 Y:若您的数据已汇总为事件(成功)和试验的频数,则按如下顺序将两个连续列指定为 Y:成功次数的计数和试验次数的计数。
注意:若指定的“分布”为“二项”,则“Logistic 回归”将取代“最大似然估计”方法。
Beta 二项
Y 服从成功概率为 p、试验次数为 n 且过度离散参数为 δ 的 beta 二项分布。该分布是过度离散版本的二项分布。
运行 JMP Samples/Scripts 文件夹中的 demoBetaBinomial.jsl,将具有离散参数 δ 的 beta 二项分布与具有参数 p 且 n = 20 的二项分布进行比较。
beta 二项分布对于每个观测要求样本大小大于 1。因此,用户必须指定一个样本大小列。要插入样本大小列,请按如下顺序将两个连续列指定为 Y:成功次数和试验次数。p 的连结函数为 Logit。请参见分布的统计详细信息。
多项式
Y 服从有三个或更多离散水平的多项式分布。响应变量的建模类型必须为名义型或有序型。该模型为响应变量的每个水平拟合单独的截距和效应参数。若响应变量有 k 个水平,则模型包含 k - 1 个截距和效应参数。多项式分布的连结函数是多项式 Logit。请参见名义型响应。
有序型 Logistic
Y 服从包含有序型水平的多项式分布。响应变量的建模类型必须为有序型。该模型为响应变量的每个水平拟合截距。效应参数对于响应变量的所有水平都是相同的。有序型 Logistic 分布的连结函数是有序的 Logit。请参见有序型响应。
注意:“广义回归”中的“有序型 Logistic”的截距参数化不同于“拟合模型”的“有序型 Logistic”特质的截距参数化。“广义回归”中的第一个截距项对应于“有序型 Logistic”特质中的第一个截距项。“广义回归”中的后续截距项是响应变量的有序水平的截距项之间的相邻差值。
Poisson
Y 服从均值为 λ 的 Poisson 分布。Poisson 分布通常对给定时间间隔中的事件数建模,经常表示为计数数据。λ 的连结函数为对数。即使 Y 采用非整数值,Poisson 回归也是允许的。请参见分布的统计详细信息。
负二项
Y 服从均值为 μ 且离散参数为 σ 的负二项分布。负二项分布通常对指定失败次数之前的成功次数建模。负二项分布也等价于某些条件下的 Gamma Poisson 分布。有关负二项和 Gamma Poisson 之间关系的详细信息,请参见《基本分析》中的分布。
运行 JMP Samples/Scripts 文件夹中的 demoGammaPoisson.jsl,将具有均值 λ 和离散参数 σ 的 Gamma Poisson 分布与具有均值 λ 的 Poisson 分布进行比较。
μ 的连结函数为对数。即使 Y 采用非整数值,负二项回归也是允许的。请参见分布的统计详细信息。
零泛滥二项
Y 服从参数为 p、n 且零泛滥参数为 π 的零泛滥二项分布。响应 Y 指示所有试验中具有固定概率 p 的 n 个独立试验中的总成功次数。该分布允许使用样本大小列。若未列出任何列,则假定样本大小为 1。p 的连结函数为 Logit。请参见分布的统计详细信息。
零泛滥 Beta 二项
Y 服从成功概率为 p、试验次数为 n、过度离散参数为 δ 且零泛滥参数为 π 的 beta 二项分布。该分布是过度离散版本的零泛滥二项分布。零泛滥 beta 二项分布对于每个观测要求样本大小大于 1。因此,用户必须指定一个样本大小列。要插入样本大小列,请按如下顺序将两个连续列指定为 Y:成功次数和试验次数。p 的连结函数为 Logit。请参见分布的统计详细信息。
零泛滥 Poisson
Y 服从均值参数为 λ 且零泛滥参数为 π 的零泛滥 Poisson 分布。参数 λ 是基于来自 Poisson 分布的观测值(而非来自于泛滥的零值)的条件均值。λ 的连结函数为对数。即使 Y 采用无观测零值或非整数值,零泛滥 Poisson 回归也是允许的。请参见分布的统计详细信息。
零泛滥负二项
Y 服从位置参数为 μ、离散参数为 σ、 且零泛滥参数为 π 的零泛滥负二项分布。参数 μ 是基于来自负二项分布的观测值(而非来自于泛滥的零值)的条件均值。μ 的连结函数为对数。即使 Y 采用无观测零值或非整数值,零泛滥负二项回归也是允许的。请参见分布的统计详细信息。
零泛滥 Gamma
Y 服从均值参数为 μ 且零泛滥参数为 π 的零泛滥 gamma 分布。在很多时候,我们可能认为非零响应服从 gamma 分布。这对于保险索赔是成立的:索赔值近似服从 gamma 分布,但是对于没有任何索赔的保险单,数据中也有零。零泛滥 gamma 可以直接处理这类数据而不必将数据分为零和非零响应。参数 μ 是基于来自 gamma 分布的观测值(而非来自于泛滥的零值)的条件均值。μ 的连结函数为对数。请参见分布的统计详细信息。
表 6.1 列出了被分配各种分布的 Y 变量的数据类型、建模类型和其他要求。
分布 |
数据类型 |
建模类型 |
其他 |
---|---|---|---|
正态 |
数值 |
连续 |
|
Cauchy |
数值 |
连续 |
|
t(5) |
数值 |
连续 |
|
指数 |
数值 |
连续 |
正值 |
Gamma |
数值 |
连续 |
正值 |
Weibull |
数值 |
连续 |
正值 |
对数正态 |
数值 |
连续 |
正值 |
Beta |
数值 |
连续 |
介于 0 到 1 之间 |
分位数回归 |
数值 |
连续 |
|
Cox 比例风险 |
数值 |
连续 |
非负 |
二项,未汇总 |
任意 |
任意 |
二值 |
二项,已使用“频数”列汇总 |
任意 |
任意 |
二值 |
二项,已汇总且将计数列输入为第二个 Y |
数值 |
连续 |
非负 |
Beta 二项 |
数值 |
连续 |
非负 |
多项式 |
任意 |
有序型或名义型 |
|
有序型 Logistic |
任意 |
有序型 |
|
Poisson |
数值 |
任意 |
非负 |
负二项 |
数值 |
任意 |
非负 |
零泛滥二项 |
数值 |
任意 |
非负 |
零泛滥 Beta 二项 |
数值 |
任意 |
非负 |
零泛滥 Poisson |
数值 |
任意 |
非负 |
零泛滥负二项 |
数值 |
任意 |
非负 |
零泛滥 Gamma |
数值 |
连续 |
非负 |
有关这些分布如何参数化的详细信息,请参见分布的统计详细信息。表 6.2 汇总了这些详细信息。
分布 |
参数 |
均值模型连结函数 |
---|---|---|
正态 |
μ, σ |
恒等(μ) |
Cauchy |
μ, σ |
恒等(μ) |
t(5) |
μ, σ |
恒等(μ) |
指数 |
μ |
Log(μ) |
Gamma |
μ, σ |
Log(μ) |
Weibull |
μ, σ |
恒等(μ) |
对数正态 |
μ, σ |
恒等(μ) |
Beta |
μ |
Logit(μ) |
二项 |
n, p |
Logit(p) |
Beta 二项 |
n, p, δ |
Logit(p) |
Poisson |
Λ |
Log(μ) |
负二项 |
μ, σ |
Log(μ) |
零泛滥二项 |
n, p, π(零泛滥) |
Logit(p) |
零泛滥 Beta 二项 |
n, p, δ, π(零泛滥) |
Logit(p) |
零泛滥 Poisson |
λ, π(零泛滥) |
Log(μ) |
零泛滥负二项 |
μ, σ, π (零泛滥) |
Log(μ) |
零泛滥 Gamma |
μ, σ, π (零泛滥) |
Log(μ) |
在选择合适的分布后,点击运行。随即显示“广义回归”报表窗口。