“典型图”是一个双标图,它描述变量的典型相关性结构。
“X,类别”列的每个水平定义一个指示符变量。典型相关性在表示类别的指示符变量组和协变量之间执行。会推导得出协变量的线性组合(称为典型变量)。这些典型变量尝试汇总类别间的变异。
第一个典型变量是协变量的线性组合,它最大化类别指示符变量和协变量之间的多重相关性。第二个典型变量是与第一个典型变量不相关的协变量的线性组合,它最大化协变量与类别的多重相关性。若“X,类别”列具有 k 个水平,则获取 k - 1 个典型变量。
图 5.9 显示了数据表 Iris.jmp 的线性判别分析的典型图。这些点已按物种着色。
图 5.9 Iris.jmp 的典型图
双标图轴是前两个典型变量。这些变量定义两个维度来提供组之间的最大分隔。每个典型变量是协变量的线性组合。(请参见典型结构。)双标图显示如何用典型变量表示每个观测以及每个协变量对典型变量的贡献大小。
• 观测值和每个组的多元均值表示为双标图上的点。它们用前两个典型变量表示。
‒ 对应于每个多元均值的点用加号 (“+”) 标记表示。
‒ 为每个均值标绘 95% 置信水平椭圆。若两个组显著不同,则置信椭圆倾向于不相交。
‒ 为每个组绘制表示 50% 等高线的椭圆。这在前两个典型变量的空间中绘制一个区域来包含大约 50% 的观测(假定正态性)。
• 图中显示的一组射线表示协变量。
‒ 对于每个典型变量,线性组合中协变量的系数可以解释为权重。
‒ 为了帮助在权重之间进行比较,协变量进行了标准化,使得每个协变量的均值为 0 且标准差为 1。标准化协变量的系数称为典型权重。协变量的典型权重越大,它与典型变量的关联越强。
‒ 双标图中每条射线的长度和方向指示相应的协变量与前两个典型变量的关联度。射线长度是典型权重的倍数。
‒ 这些射线从点 (0,0) 发出,该点表示用典型变量表示的数据的总均值。
‒ 通过从“判别分析”红色小三角菜单中选择典型选项 > 显示典型详细信息可获取权重系数值。在“典型详细信息”报表底部,点击“标准化得分系数”。请参见标准化得分系数。
有更多选项供您修改双标图:
• 通过从“判别分析”红色小三角菜单中选择典型选项 > 显示均值置信限椭圆来显示或隐藏 95% 置信椭圆。
• 通过从“判别分析”红色小三角菜单中选择典型选项 > 显示双标图射线来显示或隐藏射线。
• 将双标图射线中心拖到图中其他位置。通过从“判别分析”红色小三角菜单中选择典型选项 > 双标图射线位置来指定其位置和尺度。除非需要调整以使射线可见,“典型图”中显示的默认“射线尺度”为 1.5。
• 通过从“判别分析”红色小三角菜单中选择典型选项 > 显示正态 50% 等高线来显示或隐藏 50% 等高线。
• 通过从“判别分析”红色小三角菜单中选择典型选项 > 点着色来对点进行颜色编码以匹配椭圆。
对于 Iris.jmp 数据,有三个物种,因此只有两个典型变量。图 5.9 中的图显示了使用这两个典型变量很好地分隔开三个组。
图中的射线指示以下信息:
• 花瓣长度与“典型1”正相关,与“典型2”负相关。与“典型2”相比,定义“典型1”时它具有更大的权重。
• 花瓣宽度与“典型1”和“典型2”均正相关。在定义两个典型变量时,它具有大概相同的权重。
• 萼片宽度与“典型1”负相关,与“典型2”正相关。与“典型1”相比,定义“典型2”时它具有更大的权重。
• 萼片长度在定义“典型1”时负加权,并且与定义“典型2”具有很弱的关联。
分类变量只有两个水平时,针对单个典型变量(在图中用“典型1”表示)绘制点。每个协变量的典型权重仅与“典型1”有关。射线只显示垂直成分来分隔它们。将这些射线投影到“典型1”轴以比较它们与单个典型变量的相对关联度。
图 5.10 显示了样本数据表 Fitness.jmp 的“典型图”。使用七个连续变量将个体分类为 M(男性)或 F(女性)。因为分类变量只有两个类别,因此只有一个典型变量。
图 5.10 Fitness.jmp 的“典型图”
“典型图”中的点已经按性别着色。请注意,这两个组用“典型1”的值很好地分隔开。
尽管对应于七个协变量的射线有垂直成分,在这种情况下您必须仅根据它们在“典型1”轴上的投影来解释射线。您注意到:
• 最大脉搏、跑步时间和跑步时脉搏与“典型1”的关联度很低。
• 体重、休息时脉搏和年龄与“典型1”正相关。体重的关联度最高。协变量休息时脉搏和年龄具有类似但是更小的关联度。
• 吸氧量与“典型1”负相关。