多重比较

使用该选项可获取用来比较模型效应各水平所定义的均值的检验和置信水平。多重比较的目标是：确定组均值是否存在差异，同时控制得出不正确结论的概率。“多重比较”选项支持您将组均值与总平均均值（均值分析）和控制组均值进行比较。您还可以使用 Tukey HSD 或 Student t 执行配对比较。要确定具有实际意义的配对差值，您可以执行等价性检验。

Student t 方法仅控制单个比较的误差率。因此，它不是真正的多重比较过程。提供的所有其他方法控制关注的所有比较的总误差率。在这些方法中，每一种方法都使用多重比较调整来计算 p 值和置信限。

若您的模型包含名义型和有序型效应，您可以使用最小二乘均值估计值执行比较，也可以使用“用户定义的估计值”定义特定比较。若您的模型仅包含连续效应，您可以使用“用户定义的估计值”比较均值。

注意：假定连续效应包含相对较少的水平。若您关注的是使用“最小二乘均值估计值”进行比较，则考虑为该效应分配有序型（或名义型）建模类型。

启动选项

“多重比较”选项的控制窗口示例显示在 “最小二乘均值估计值”的启动窗口中。本例基于 Big Class.jmp 数据表，其中将体重设置为 Y，年龄、性别和身高设置为模型效应。有两类估计值可用于比较：“最小二乘均值估计值”和“用户定义的估计值”。

最小二乘均值估计值

该选项比较最小二乘均值，仅在模型中有名义型或有序型效应时才可用。回想一下，最小二乘均值是在模型中其他效应设置为某个中性值时计算的均值。（有关最小二乘均值的定义，请参见最小二乘均值表。）您必须选择相关的效应。在“最小二乘均值估计值”的启动窗口中，为年龄指定了“最小二乘均值估计值”。

“最小二乘均值估计值”的启动窗口

用户定义的估计值

“用户定义的估计值”的启动窗口对如何指定“用户定义的估计值”进行了演示。已选定“年龄”的三个水平和“性别”的两个水平。此外，还手动输入了“身高”的两个值。已点击“添加估计值”按钮，生成了指定水平的所有可能组合的列表。此时，您可以指定更多估计值，并通过再次点击“估计值”按钮将其添加至“估计值进行比较”列表。

“用户定义的估计值”的启动窗口

使用“用户定义的估计值”时，未指定水平的效应设置如下：

•	连续效应设置为效应的均值。

•	名义型和有序型效应设置为值排序中的第一个水平。

注意：在本节中，我们将用均值一词来指代最小二乘均值的估计值或用户定义的估计值。

选择初始比较

一旦指定了估计值，通过在“选择初始比较”下作出选择，您可以选择希望在初始报表中查看的比较类型。或者点击“确定”不作任何选择。

与总平均值比较 - ANOM

将每个效应的最小二乘均值与总平均最小二乘均值进行比较。（均值分析）。

与控制组比较 - Dunnett’s

将每个效应的最小二乘均值与控制水平的最小二乘均值进行比较。

所有配对比较 - Tukey HSD

使用 Tukey HSD 多重性调整来检验效应最小二乘均值的所有配对比较。

所有配对比较 - Student t

检验效应最小二乘均值的所有配对比较，但不使用多重性调整。

通过以上每个选项都可以打开一个报表，顶部区域会显示特定于该报表的详细信息。该信息包括分位数或临界值。对于真正的多重比较过程，会显示用于多重比较调整的方法。若您指定的是“用户定义的估计值”，相对于指定的估计值和这些效应被设置的水平，报表会显示不会发生变化的效应列表。除非您另行指定，所有连续效应都设置为其均值。任何名义型和有序型效应都设置为其值排序中的第一个水平。

若点击“确定”而不从“选择初始比较”列表中进行任何选择，“多重比较”报表打开时会显示“最小二乘均值估计值”表或“用户定义的估计值”表。在“多重比较”的红色小三角菜单中，以上列出的所有选项都可用。可用的报表和选项说明如下。

“最小二乘均值估计值”或“用户定义的估计值”报表

默认情况下，“多重比较”选项显示“最小二乘均值估计值”报表或“用户定义的估计值”报表，具体取决于您在启动窗口中选择的估计值类型。对于关注的每种水平组合，该表提供均值的估计值，以及检验和置信区间。具体而言，该表提供以下信息：

分类效应的水平

报表的第一列标识关注的一个或多个效应。列中的值指定要分析的组。

显示均值的置信下限。通过在“拟合模型”窗口中选择“设置 alpha 水平”，您可以更改置信水平。

显示显著性检验的 t 比。

提供显著性检验的 p 值。

注意：通过在表中右击并选择“列”，您可以获取 t 比和 p 值。

与总平均值比较

该选项将指定水平的均值与这些水平的总均值进行比较。它显示一个表（其中显示总均值差值的置信区间）和一个图（其中显示决策限）。比较所用的方法称为均值分析 (ANOM) (Nelson, et al., 2005)。ANOM 是一种多重比较过程，用来控制针对总均值的所有配对比较的联合误差率。请参见与“分级”的总平均值比较，获取基于 Movies.jmp 样本数据表的报表。

ANOM 的显示可能与方差分析类似。不过，根本上的不同在于：ANOM 标识其均值与所有水平的总均值存在差异的水平。相反，方差分析检验均值自身的差值。

在“与总平均值比较”报表的顶部，您会发现：

分位数

用于构造决策限的 Nelson h 统计量的值。

平均值

平均均值。对于最小二乘估计值，平均均值是组最小二乘均值的加权平均值，它表示中性设置（在此计算组最小二乘均值）处的总均值。

具体而言，平均最小二乘均值是权重与矩阵

的对角线元素成反比的加权平均值。其中，L 是用于计算组最小二乘均值的系数所构成的矩阵。有关最小二乘均值和平均最小二乘均值的技术定义，请参见 SAS/STAT 9.3 User’s Guide 中的“GLM Procedure”一节。搜索“Construction of Least Squares Means”。

对于用户定义的估计值，平均均值也按类似方式定义。不过，在这种情况下 L 是用于定义估计值的系数所构成的矩阵。

调整

说明用于获取临界值的方法：

‒	Nelson：提供精确临界值和 p 值。尽可能使用，特别是在估计值不相关时。

‒	Nelson-Hsu：基于使用的 Hsu 因子分析近似 (Hsu, 1992) 提供近似临界值和 p 值。在无法获取精确值时使用。

‒	Sidak：在 Nelson 和 Nelson-Hsu 均失败时使用。

有关技术细节的信息，请参见 SAS/STAT 9.3 User’s Guide 中的“GLM Procedure”一节。搜索“Approximate and Simulation-Based Methods”。

“与总平均值比较”报表菜单提供三个选项：

与总平均值差异

对于组均值与总均值的每次比较，该报表提供以下详细信息：

•	差值 — 估计的差值

•	标准误差 — 差值的标准误差

•	自由度 — 用于构造置信区间的自由度

•

置信区间的上下限

与总平均值比较决策图

该决策图在每个组的均值处标绘一个点。在平均均值处标绘了一条水平线。同时标绘上决策限和下决策限。假定与组均值对应的点落在这些限值之外。这表示基于指定显著性水平下的均值分析检验，组均值与总均值存在差异。显著性水平显示在图的下方。

“与总平均值比较决策图”报表菜单包含以下选项：

显示汇总报表

生成显示每组的估计值、决策限和超出限值的表

显示选项

提供用于控制图显示的若干选项。

计算 P 值

在“与总平均值比较”报表中添加列，提供 t 比（t 比）和 p 值（概率>|t|）。请注意，计算不平衡设计的精确临界值和 p 值要求复积分，计算起来可能较为困难。针对此类分位数的计算若失败，则计算 Sidak 分位数，但不提供 p 值。

“与总平均值比较”的示例

考虑 Movies.jmp 样本数据表。您关注的是四个分级类别中是否有任何类别不寻常，这体现在其均值国内票房($) 收入与总平均收入存在差异。您需要按如下方式指定模型：将国内票房($) 指定为响应，将“类型”、分级和年份指定为模型效应。

1.	选择帮助 > 样本数据库，然后打开 Movies.jmp。

2.	选择分析 > 拟合模型。

3.	选择国内票房($)，然后点击 Y。

4.	选择类型、分级和年份，然后点击添加。

点击运行。

6.	从“响应国内票房($)”旁边的红色小三角菜单中，选择估计值 > 多重比较。

7.	从“选择效应”列表中，选择分级。

8.	在“选择初始比较”列表中，选择与总平均值比较。

点击确定。

10.	从“与总平均值比较”红色小三角菜单中，选择计算 p 值。

与“分级”的总平均值比较中显示的结果指示在国内票房($) 方面分级为 PG-13 和 R 的电影的最小二乘均与总平均值存在显著差异。

与“分级”的总平均值比较

与控制组比较

若选择“与控制组比较 - Dunnett’s”，随即打开一个窗口，要求您指定控制组。若选定“最小二乘均值估计值”，该列表将包含您选定的效应的所有水平。若选定“用户定义的估计值”，该列表将包含您指定的效应水平组合。

选择控制组并点击“确定”后，“与控制组比较”报表随即显示在“拟合最小二乘法”报表中。该选项比较指定设置的均值与控制组均值。它显示一个表（其中显示与控制组差值的置信区间）和一个显示决策限的图。使用 Dunnett 方法进行比较。Dunnett 方法是一种多重比较过程，它控制所有比较的误差率（Hsu, 1996 和 Westfall et al., 2011）。

若无法精确计算 p 值和置信区间，则使用 Hsu 因子分析近似 (Hsu, 1992)。请注意，计算不平衡设计的精确临界值和 p 值要求复积分，可能需要大量计算。针对此类分位数的计算若失败，则计算 Sidak 分位数。

除了对于指定估计值不会改变的效应列表之外，“与控制组比较”报表的顶部还显示：

分位数

Dunnett 检验的临界值。

Control

定义控制组的设置。若已经选定单一效应，则这是单个水平；若指定了多个效应的用户定义组合，则这是多个水平的组合。

调整

用于获取临界值的方法：

‒	Dunnett：提供精确临界值和 p 值。尽可能使用，特别是在估计值不相关时。

‒	Dunnett-Hsu：基于 Hsu 因子分析近似 (Hsu, 1992) 提供近似临界值和 p 值。在无法获取精确值时使用。

‒	Sidak：在 Dunnett 和 Dunnett-Hsu 均失败时使用。

有关技术细节的信息，请参见 SAS/STAT 9.3 User’s Guide 中的“GLM Procedure”一节。搜索“Approximate and Simulation-Based Methods”。

“与控制组比较”报表菜单提供三个选项：

与控制组差异

对于组均值与控制均值的每次比较，该报表都提供以下详细信息：

•	差值 — 估计的差值

•	标准误差 — 差值的标准误差

•	自由度 — 用于构造置信区间的自由度

•

置信区间的上下限

与控制组比较决策图

该决策图在与控制组作比较的每个组的均值处标绘一个点。有一条水平线显示控制组的均值。同时标绘上决策限和下决策限。若某个点落在这些限值之外，则这点对应组的均值与控制组均值存在差异（基于指定显著性水平下的 Dunnett 检验）。该水平显示在图下方。

“与控制组比较决策图”报表菜单包含以下选项：

显示汇总报表

生成显示每组的估计值、决策限和超出限值的表

显示选项

提供用于控制图显示的若干选项。

计算 P 值

在“与控制组比较”报表中添加列，提供 t 比（t 比）和 p 值（概率>|t|）。请注意，计算不平衡设计的精确临界值和 p 值要求复积分，计算起来可能较为困难。针对此类分位数的计算若失败，则计算 Sidak 分位数，但不提供 p 值。

所有配对比较

“所有配对比较”选项显示“Tukey HSD 所有配对比较”或“Student t 所有配对比较”报表（Hsu, 1996 和 Westfall et al., 2011）。构造 Tukey HSD 比较，以使显著性水平联合应用到所有配对比较。相比之下，对于 Student t 比较，显著性水平应用到每一单个比较。使用 Student t 检验执行若干配对比较时，某个比较被错误地判定存在差异的风险可能远远超出规定的显著性水平。

在“Tukey HSD 所有配对比较”报表的顶部，您会发现：

分位数

检验的临界值。请注意，对于 Tukey HSD，分位数为

，其中 q 是适当的学生化范围统计量的百分点。

调整

说明用于获取临界值的方法：

‒	Tukey：提供精确临界值和 p 值。在均值不相关且具有相等方差时或设计的方差平衡时使用。

‒	Tukey-Kramer：提供近似临界值和 p 值。在无法获取精确值时使用。

有关技术细节的信息，请参见 SAS/STAT 9.3 User’s Guide 中的“GLM Procedure”一节。搜索“Approximate and Simulation-Based Methods”。

在“Student t 所有配对比较”报表的顶部，您会发现 t 检验的“分位数”或临界值。

“所有配对差异”报表

Tukey HSD 和 Student t 比较所有水平对。对于每个配对比较，“所有配对差异”报表都显示：

•

要比较的水平

•	差值 — 均值间的估计差值

•	标准误差 — 差值的标准误差

•	自由度 — 用于构造置信区间的自由度

•	t 比 — 确定差值是否为 0 的检验的 t 比

•	概率>\|t\| — 检验的 p 值

•	均值差值的置信区间的上下限

所有配对比较散点图

该图有时称为差值图或均值-均值散点图，其中显示所有均值配对差值的置信区间。（相关示例，请参见针对用户定义的比较的“所有配对比较散点图”。）颜色指示哪些差值显著。

该图将参考线显示为对角线上向上倾斜的线。这条线表示两个均值相等的点。每条线段都对应于某一配对比较的置信区间。线段上显示的点的坐标是对应组的均值。将光标置于其中一个点上会显示工具提示，标识要比较的组并显示估计差值。若线段与对角线相交，则均值可能相等，比较不显著。

等价性检验

使用该选项可执行一个或多个等价性检验。若您想要检测有实际意义的差值，等价性检验很有用。您需要为组均值指定一个阈值差，比这更小的差值可被视为实际上等价。换言之，若两个组均值的差值未超过该数值，您愿意将其视为等价。

一旦指定该值，“等价性检验”报表随即显示。您指定的界限显示在该报表顶部。该报表包含一个提供等价性检验的表，以及一个显示这些检验的散点图。等价性检验和置信区间基于 Tukey HSD 或 Student t 临界值，它们与您选定的选项相对应。

等价性 TOST 检验

双单侧检验 (TOST) 方法用于检验均值之间的实际差值 (Schuirmann, 1987)。针对实际差值超过阈值的原假设，构造双单侧合并方差 t 检验。若两个检验都拒绝，则均值差值在统计上未超过任一阈值。因此，这些组被视为实际上等价。若只有一个检验拒绝或两个检验均未拒绝，则各组可能实际上不等价。

对于每个比较，“等价性 TOST 检验”报表都提供以下信息：

•	差值 — 均值的估计差值

•	t 比下限、t 比上限 — 双单侧合并方差显著性检验的 t 比的下限和上限

•	p 值下限、p 值上限 — 与 t 比的下限和上限对应的 p 值

•	最大 p 值 — p 值下限和上限的最大值

•	均值差值的置信区间的上下限

等价性检验散点图

该散点图使用颜色指示哪些均值实际上是等价的，哪些不等价，正如等价性检验确定的那样。（请参见等价性检验散点图。）

该图在对角线上显示一条参考实线以及一个着色参考带。参考带的宽度是实际差值的两倍宽。每条线段都对应于某一配对比较的

置信区间。线段上的点的坐标是对应组的均值。将光标置于其中一个点上会显示工具提示，指示要比较的组并显示估计差值。若线段完全包含在对角带内，由此判定均值实际上等价。

删除

该选项删除“等价性检验”报表。

“Tukey HSD 所有配对比较”的示例

考虑 Movies.jmp 样本数据表。您关注的是 1998 年在 PG-13 和 R 这两个分级类别上动作电影和剧情电影的国内票房($) 差值。

1.	选择帮助 > 样本数据库，然后打开 Movies.jmp。

2.	选择分析 > 拟合模型。

3.	选择国内票房($)，然后点击 Y。

4.	选择类型、分级和年份，然后点击添加。

点击运行。

6.	从“响应国内票房($)”旁边的红色小三角菜单中，选择估计值 > 多重比较。

7.	从“估计值类型”列表中，点击用户定义的估计值。

8.	从“选择‘类型’水平”列表中，选择“Action”（默认应该已选定“Action”）和“Drama”。

9.	从“选择‘分级’水平”列表中，选择“PG-13”和“R”。

10.	在标题为年份的列表中，输入 1998 年。

11.	点击添加估计值。请注意，您指定的水平的所有可能组合现在都显示在添加估计值按钮的下方。

12.	在“选择初始比较”列表中，选择所有配对比较 - Tukey HSD。

检查窗口按已填充的“用户定义的估计值”窗口中的显示进行了填充。

已填充的“用户定义的估计值”窗口

13.

点击确定。

“所有配对差异”报表指示六个配对比较中有三个是显著的。针对用户定义的比较的“所有配对比较散点图”中显示的“所有配对比较散点图”将这些比较的置信区间显示为红色。同时还为其中一个区间显示了工具提示，指示该区间比较“Action，分级 R”电影与“Drama，分级 PG-13”电影，而且国内票房($) 的均值差值为 -53.58。

针对用户定义的比较的“所有配对比较散点图”

14.	从“Tukey HSD 所有配对比较”报表的红色小三角菜单中，选择等价性检验。

15.	在出现的文本框中，输入 50。

16.

点击确定。

执行 TOST 检验以确定哪些电影类别是等价的，假设您认为以国内票房($) 为单位差值小于 50 的类别视为等价。“等价性检验散点图”（等价性检验散点图）指示两对电影类别可被视为等价。

等价性检验散点图