针对 X 的效应杠杆图在以下方面很有用:
• 您可以看到哪些点可能对 X 的假设检验施加影响。
• 您可以发现异常模式和违反模型假设情况。
• 您可以发现多重共线性问题。
效应的杠杆图显示在模型中已存在其他效应的情况下向模型添加该效应的影响。为了方便演示,考虑为单个连续效应 X 构造效应杠杆图。有关在更一般情况下水平轴的尺度的信息,请参见水平轴尺度。
响应 Y 对 X 以外的所有预测变量上进行回归,并获取残差。将这些残差称为 Y 残差。然后,X 对模型中其他所有预测变量上进行回归,并计算残差。将这些残差称为 X 残差。X 残差可能包含 Y 残差不包含的信息,Y 残差是在模型不含 X 的情况下获得的。
X 的效应杠杆图实际上是一个 X 残差对 Y 残差的散点图(Figure 3.58)。为了帮助解释和比较您可能构造的其他图,JMP 向 Y 残差添加了 Y 均值,向 X 残差添加了 X 均值。转换的 Y 残差称为 Y 杠杆率残差,转换的 X 残差称为 X 杠杆率值。效应杠杆图上的点是这些 X 杠杆率与 Y 杠杆率残差配对而成的点。
JMP 拟合这些点的最小二乘线并拟合均值置信带;拟合线为红色实线,置信带着红色。最小二乘线的斜率恰好是模型中 X 的系数估计值;在该模型中,Y 对 X 和其他预测变量上进行回归。蓝色水平虚线设置在“Y 杠杆率残差”的均值位置。这条线描述 X 残差与 Y 残差不线性相关的情形。若拟合线具有非零斜率,则向模型添加 X 可帮助解释变异。
Figure 3.56显示如何在杠杆图中描述残差。从某个点到拟合线的距离是包含该效应的模型的残差。从该点到水平线的距离是模型中不含该效应时的剩余误差。换言之,杠杆图中的均值线表示参数(效应)的假设值被限制为 0 时的模型。
图 3.56 一般杠杆图的演示
拟合线的置信曲线显示在杠杆图中。这些曲线直观地表明所关注的检验在 5% 水平下(或是您在“拟合模型”启动窗口中指定的“设置 Alpha 水平”下)是否显著。若曲线之间的置信区域包含表示假设的水平线,则效应不显著。若曲线跨越水平线,则效应显著。请参见Figure 3.57 中的示例。
图 3.57 比较杠杆图中显示的显著性
若预测变量 X 的建模类型为连续,则水平轴将根据 X 的单位来统一尺度。水平轴范围反映 X 值的范围。杠杆图中拟合线的斜率是 X 的参数估计值。请参见Figure 3.58 中的左图。
若效应为名义型或有序型,或效应是交互作用之类的复杂效应,则水平轴无法直接表示效应值。在这种情况下,水平轴将按照响应的单位统一尺度,且拟合线是斜率为 1 的对角线。“整体模型”杠杆图(其中所关注的假设为“所有参数值均为 0”)使用该尺度。(请参见杠杆图详细信息。)对于该图,水平轴按照整体模型的预测响应值来统一尺度,如Figure 3.58 中的右图所示。
简单回归中线性效应的杠杆图与“预测变量-实际响应值”的传统图相同。
之所以使用杠杆率一词,是因为这些图可帮助您直观演示在模型中添加效应后各点对检验的影响。在水平方向距离图中心较远的点与接近中心的点相比,对效应检验发挥的影响更大。回想一下,效应检验涉及比较模型在包含和不含该效应时的残差平方和。在极值处,受假设约束之前和之后的残差的差值相对较大。因此,这些残差往往对该效应的假设检验的平方和有更大的贡献。
多重共线性是指这样一种状况:两个或更多预测变量高度相关,或从技术上更准确地说,涉及接近线性相关的关系。存在多重共线性时,标准误差可能会膨胀,参数估计值可能不稳定。若某个效应与其他预测变量共线,则点的水平值往往朝着图中央聚拢。这种情形指示拟合线的斜率不稳定。
“标绘效应杠杆图”选项为模型中的每个效应生成一个杠杆图。此外,“预测值-实际值”图也可被视为杠杆图。该图支持您直观演示关于模型中的所有参数(截距除外)均为 0 的检验。在“方差分析”报表中也会通过分析方法执行相同的检验。(有关该图的详细信息,请参见杠杆图详细信息。)
1. 选择帮助 > 样本数据库,然后打开 Big Class.jmp。
2. 选择分析 > 拟合模型。
3. 选择体重并点击 Y。
4. 选择身高、年龄和性别,然后点击添加。
5. 点击运行。
整体模型“预测值-实际值”图以及针对身高的效应“杠杆图”显示在Figure 3.58 中。左侧的整体模型图针对所有效应进行检验。您可以推断出该模型显著,因为置信曲线跨越响应体重均值处的水平线。右侧的身高“杠杆图”也显示身高是显著的,即便是模型中包含年龄和性别也是如此。这两个图均未表明需要担心与影响点或多重共线性相关的问题。
图 3.58 整体模型和效应杠杆图