该示例使用有关在 2011 年发行的电影的数据。您对全球总收入值特别感兴趣,该值表示总收入。您的潜在预测变量为烂番茄分数、观众打分和类型。两个得分变量为连续的,但是类型是名义型的。在尝试使用“逐步”简化模型前,您想探索相关变量。
1. 选择帮助 > 样本数据库,然后打开 Hollywood Movies.jmp。
2. 选择分析 > 分布。
3. 选择类型,然后点击 Y,列。
4. 点击确定。
图 5.14 “类型”的分布
请注意,类型有 9 个水平,因此将用 8 个模型项来表示。进一步的数据探索将揭示:由于缺失数据,“逐步”只考虑 8 个水平。
5. 在数据表的列面板中,选择关注的列:烂番茄分数、观众打分和全球总收入。
6. 选择分析 > 筛选 > 探索缺失值。
7. 点击 Y,列,然后点击确定。
图 5.15 “缺失列”报表
请注意,烂番茄分数在 2 行中有缺失,观众打分在 1 行中有缺失,全球总收入在 2 行中有缺失。
8. 在“缺失列”报表中,选择列下面列出的三列。
9. 点击选择行。
在数据表的行面板中,您可以看到选择了三行。因为这三行包含有关预测变量或响应的缺失数据,它们将自动从“逐步”分析中排除。请注意,第 128 行是“Adventure”类别中的唯一一个条目,这意味着将从分析中彻底删除该类别。为了进行“逐步”分析,因此类型只有 8 个类别。既然您已了解缺失数据的影响,接下来将执行“逐步”分析。
10. 选择分析 > 拟合模型。
11. 选择烂番茄分数、观众打分和类型,然后点击添加。
若您使用烂番茄分数、观众打分和类型作为预测变量,使用标准最小二乘法模型拟合全球总收入,残差将具有很高的异方差性。(这是财务数据的典型特点)。使用对数变换可以更好地满足方差相等的回归假设。
12. 在“选择列”列表中右击全球总收入,然后选择变换 > 对数。
变换后的变量对数[全球总收入]显示在“选择列”列表的底部。
13. 选择对数[全球总收入],然后点击 Y。
14. 从“特质”列表中选择逐步。
15. 点击运行。
图 5.16 显示了模型项列表的“当前估计值”表
在“当前估计值”表中,请注意类型用 7 个项表示。您将使用其中的两个项构造模型以了解这些项是如何定义的。
16. 选中类型前两个项旁边的已进入框:
‒ 类型{Drama&Horror&Thriller&Fantasy&Romance&Comedy-Action&Animation}
‒ 类型{Drama&Horror&Thriller-Fantasy&Romance&Comedy}
17. 点击构建模型。
请注意,已将两个项作为临时变换列添加到“模型规格”窗口中的“模型效应”列表。将在下一节中讨论这些列。
回想一下,由于存在缺失值,类型是具有 8 个水平的名义型变量。在“当前估计值”表中,类型用 7 个项表示。这是合适的,因为类型有 8 个水平。下面说明了表示类型的前两个项。后面的项按类似方式定义。
显示的第一个项是类型{Drama&Horror&Thriller&Fantasy&Romance&Comedy-Action&Animation}。该变量的格式为类型{A1 - A2},其中 A1 和 A2 用减号分隔。该符号指示根据组间平方和确定的最大化分隔发生在以下两组水平之间:
• Drama、Horror、Thriller、Fantasy、Romance 和 Comedy(用 A1 表示)
• Action 和 Animation(用 A2 表示)
若您在模型中包含项类型{Drama&Horror&Thriller&Fantasy&Romance&Comedy-Action&Animation},则在模型中使用表示该项的临时变换列。该列包含以下值:
• 对于 Drama、Horror、Thriller、Fantasy、Romance 和 Comedy,值为 1
• 对于 Action 和 Animation,值为 -1
显示的第二个项是类型{Drama&Horror&Thriller-Fantasy&Romance&Comedy}。这组水平完全包含在第一个项 (A1) 的第一次拆分中。该符号对比水平:
• Drama、Horror 和 Thriller
• Fantasy、Romance 和 Comedy。
在 Drama、Horror、Thriller、Fantasy、Romance 和 Comedy (A1) 水平与 Action 和 Animation (A2) 水平的所有拆分中,算法确定该拆分具有组间的最大平方和。
若您在模型中包含该项,则模型中使用表示该项的临时变换列。该列包含以下值:
• 对于 Drama、Horror 和 Thriller,值为 1
• 对于 Fantasy、Romance 和 Comedy,值为 -1
• 对于 Action 和 Animation,值为 0
基于组间平方和准则继续拆分项。导致项的定义的层次结构显示在Figure 5.17 中。
图 5.17 显示了分层编码中使用的拆分的树
当您使用合并规则或限制规则时,项无法进入模型,除非层次中该项上层的所有项都进入了模型。例如,若您输入类型{Action-Animation},则 JMP 还会输入类型{Drama&Horror&Thriller&
Fantasy&Romance&Comedy-Action&Animation}。
当您使用整体效应规则并使任何一个类型项进入时,所有类型项都将进入。