使用单预测变量回归这一节显示如何构建由一个预测变量和一个响应变量组成的简单回归模型。多重回归使用两个或多个预测变量预测平均响应变量。
本示例使用 Candy Bars.jmp 数据表,表中包含糖果条的营养信息。
营养学家想使用下列信息预测卡路里:
• 总脂肪
• 碳水化合物
• 蛋白质
使用多重回归可以通过三个预测变量预测平均响应变量。
要可视化卡路里与总脂肪、碳水化合物和蛋白质之间的关系,创建散点图矩阵:
1. 选择帮助 > 样本数据库,然后打开 Candy Bars.jmp。
2. 选择图形 > 散点图矩阵。
3. 选择卡路里并点击 Y,列。
4. 选择总脂肪 (g)、碳水化合物 (g) 和蛋白质 (g),并点击 X。
5. 点击确定。
图 5.26 散点图矩阵结果
散点图矩阵显示卡路里与这三个变量之间存在正相关性。卡路里和总脂肪之间的相关性最强。既然营养学家认识到存在关系,则可以构建多重回归模型以预测平均卡路里。
继续使用 Candy Bars.jmp 样本数据表。
1. 选择分析 > 拟合模型。
2. 选择卡路里并点击 Y。
3. 选择总脂肪 (g)、碳水化合物 (g) 和蛋白质 (g),并点击添加。
4. 在“重点”旁边,选择效应筛选。
图 5.27 拟合模型窗口
5. 点击运行。
报表窗口显示模型结果。要解释模型结果,请关注以下方面:
• 解释参数估计值
• 使用预测刻画器
注意:有关所有模型结果的详细信息,请参见《拟合线性模型》中的模型规格。
“预测值-实际值”图显示预测卡路里与实际卡路里的关系图。随着预测值逐渐接近实际值,散点图中的点逐渐落在红色线附近(图 5.28)。因为各点非常接近该线,您可以看到模型根据所选的因子预测卡路里的效果很好。
图 5.28 “预测值-实际值”图
模型准确度的另一个测度是 R 方值(显示在图 5.28 中图形的下方)。R 方值测量该模型中解释的卡路里变异性的百分比。值越接近 1 表示模型预测效果越好。在该示例中,R 方值为 0.99。
“参数估计值”报表显示下列信息:
• 模型系数
• 每个参数的 p 值
图 5.29 “参数估计值”报表
在该示例中,p 值都非常小 (<.0001)。这表示所有三个效应(脂肪、碳水化合和蛋白质)在预测卡路里时都做出显著贡献。
您可以使用模型系数预测脂肪、碳水化合物和蛋白质的特定值所对应的卡路里值。例如,假设您想预测具有下列特征的糖果条的平均卡路里:
• 脂肪 = 11 g
• 碳水化合物 = 43 g
• 蛋白质 = 2 g
使用这些值,您可以按照下面的方程计算预测的平均卡路里:
277.92 = -5.9643 + 8.99*11 + 4.0975*43 + 4.4013*2
本示例中的特征与 Milky Way 糖果条(在数据表的 59 行)相同。Milky Way 的实际卡路里是 280,显示出模型预测效果很好。
使用“预测刻画器”可以查看因子的变化如何影响预测值。刻画线显示随因子变化卡路里的变化量。代表总脂肪 (g) 的线条最陡,表示总脂肪变化对卡路里的影响最大。
图 5.30 预测刻画器
点击并拖动每个因子的垂直线,查看预测值如何变化。也可以点击当前的因子值进行更改。例如,点击因子值并为 Milky Way 糖果条(59 行)键入值。
图 5.31 Milky Way 的因子值
注意:有关“预测刻画器”的详细信息,请参见《刻画器指南》中的刻画器。
营养学家现在有很好的模型来根据糖果条的总脂肪、碳水化合物和蛋白质来预测卡路里。