本示例使用 Companies.jmp 数据表,表中包含来自医药和计算机行业的 32 家公司的财务数据。
从直觉上来看,相比雇员较少的公司,雇员较多的公司产生的销售收入更高。数据分析人员想根据雇员数量预测每家公司的总体销售收入。
要完成该任务,请执行下列操作:
• 发现关系
• 拟合回归模型
• 预测平均销售额
首先,创建一个散点图以查看雇员数量和销售收入之间的关系。该散点图在创建散点图中创建。隐藏并排除一个离群值(雇员数量和销售额明显较高的公司)之后,图 5.12 中的图形显示出结果。
图 5.12 雇员数量-销售额 ($M)散点图
该散点图清晰地显示出销售额和雇员数量之间的关系。和预想的一样,公司的雇员越多,销售额越高。这直观地印证了数据分析人员的猜测,但不能在给定雇员数量的情况下预测出销售额。
要根据雇员数量预测出销售收入,可以拟合回归模型。点击“二元拟合”红色小三角并选择拟合线。回归线随即添加到散点图中,并且报表添加到报表窗口中。
图 5.13 回归线
在报表中,看到下列结果:
• p 值 <.0001
• R 方值为 0.618
从这些结果中,数据分析人员可以推断出下列结论:
• “雇员数量”模型项的 p 值很小。这支持了在 0.05 显著性水平下“雇员数量”的系数不为零。因此,在预测模型中包括雇员数量可显著改善通过不含雇员数量的模型预测平均销售额的能力。
• R 方值为 0.618 表示该模型解释了销售额中大约 62% 的变异性。R 方值是决定系数,它表示因(响应)变量方差中可以被该模型解释的那部分。R 方值的范围可以从 0 到 1。R 方值为 0 的模型没有解释能力。R 方值为 1 的模型可以完美预测响应。
使用回归模型可以预测出公司可能预期的平均销售额(若公司具有一定数量的雇员)。模型的预测方程包含在报表中:
平均销售额 = 1059.68 + 0.092*雇员数量
例如,在具有 70,000 名雇员的公司中,预测的销售额大约为 $7,500:
$7,499.68 = 1059.68 + 0.092*70,000
在当前散点图的右下方区域,有一个离群值,它与其他公司的一般模式不同。数据分析人员想知道排除该离群值后预测模型是否会发生变化。
1. 点击离群值。
2. 选择行 > 排除/撤销排除。
3. 要拟合该模型,点击“二元拟合,以‘雇员数量’拟合‘销售额 ($M)’”旁边的红色小三角,然后选择拟合线。
下列项被添加到报表窗口中(图 5.14):
• 一条新回归线
• 一个新的“线性拟合”报表,包括:
‒ 一个新的预测方程
‒ 一个新的 R 方值
图 5.14 比较模型
使用图 5.14 中的结果,数据分析人员可以得出下列结论:
• 离群值将较大公司的回归线拉低,将较小公司的回归线拉高。
• 不含离群值数据的新模型比第一个模型更强。新的 R 方值为 0.88,与初始分析相比,该值更高且更接近 1。
使用新预测方程,拥有 70,000 名雇员的公司的预测平均销售额可以计算如下:
$8961.37 = 631.37 + 0.119*70,000
第一个模型的预测结果大约为 $7500。第二个模型预测销售总额大约为 $8960,与第一个模型相比增加了 $1460。
删除离群值之后,第二个模型根据雇员数量描述、预测销售总额的效果比第一个模型要好。数据分析人员现在有很好的模型可以使用。