该示例使用有关在 2011 年发行的电影的数据。您对全球总收入值特别感兴趣,该值表示总收入。您的潜在预测变量为烂番茄分数观众打分类型。两个得分变量为连续的,但是类型是名义型的。在尝试使用“逐步”简化模型前,您想探索相关变量。
1.
选择帮助 > 样本数据库,然后打开 Hollywood Movies.jmp
2.
选择分析 > 分布
3.
选择类型,然后点击 Y,列
4.
点击确定
“类型”的分布
请注意,类型有 9 个水平,因此将用 8 个模型项来表示。进一步的数据探索将揭示:由于缺失数据,“逐步”只考虑 8 个水平。
5.
在数据表的“列”面板中,选择关注的列:烂番茄分数观众打分类型全球总收入
6.
选择列 > 建模工具 > 探索缺失值
“缺失列”报表
请注意,烂番茄分数在 2 行中有缺失,观众打分在 1 行中有缺失,全球总收入在 2 行中有缺失。
7.
在“缺失列”报表中,选择下面列出的三列。
8.
点击选择行
9.
选择分析 > 拟合模型
10.
选择烂番茄分数观众打分类型,然后点击添加
若您使用烂番茄分数观众打分类型作为预测变量,使用标准最小二乘模型拟合全球总收入,残差将具有很高的异方差性。(这是财务数据的典型特点)。使用对数变换可以更好地满足方差相等的回归假设。
11.
在“选择列”列表中右击全球总收入,然后选择变换 > 对数
变换后的变量对数[全球总收入]显示在“选择列”列表的底部。
12.
选择对数[全球总收入],然后点击 Y
14.
点击运行
显示了模型项列表的“当前估计值”表
在“当前估计值”表中,请注意类型用 7 个项表示。您将使用其中的两个项构造模型以了解这些项是如何定义的。
15.
选中类型前两个项旁边的已进入框:
16.
点击构建模型
回想一下,由于存在缺失值,类型是具有 8 个水平的名义型变量。在“当前估计值”表中,类型用 7 个项表示。这是合适的,因为类型有 8 个水平。下面说明了表示类型的前两个项。后面的项按类似方式定义。
显示的第一个项是类型{Drama&Thriller&Horror&Fantasy&Romance&Comedy-Action&Animation}。该变量的格式为类型{A1 - A2},其中 A1 和 A2 用减号分隔。该符号指示根据组间平方和确定的最大化分隔发生在以下两组水平之间:
若您在模型中包含项类型{Drama&Thriller&Horror&Fantasy&Romance&Comedy-Action&Animation},则表示该项的列会添加到数据表。在示例中,您已将该列保存至数据表。该列显示以下值:
显示的第二个项是类型{Drama-Thriller&Horror&Fantasy&Romance&Comedy}。这组水平完全包含在第一个项 (A1) 的第一次拆分中。该符号对比水平:
显示了分层编码中使用的拆分的树
当您使用合并规则或限制规则时,项无法进入模型,除非层次中该项上层的所有项都进入了模型。例如,若您使类型{Action-Animation}进入,则 JMP 也将使类型{Drama&Thriller&Horror&Fantasy&Romance&Comedy-Action&Animation}进入。
当您使用整体效应规则并使任何一个类型项进入时,所有类型项都将进入。