本例使用汽车数据来构建一个预测购买汽车尺寸的模型, 同时比较 Logistic 回归模型和决策树模型。
首先选择帮助 > 样本数据库并打开 Car Physical Data.jmp。
1. 选择分析 > 拟合模型。
2. 选择车型并点击 Y。
3. 选择以下列并点击添加:国家、车重、转弯半径、排气量和马力。
4. 点击运行。
“名义型 Logistic 拟合”报表随即显示。
5. 要将预测公式保存至列,请点击“名义型 Logistic”红色小三角并选择保存概率公式。
1. 选择分析 > 预测建模 > 分割。
2. 选择车型并点击 Y,响应。
3. 选择国家、车重、转弯半径、排气量和马力列,并点击 X,因子。
4. 确保在“方法”列表中选定了决策树。
5. 点击确定。
“分割”报表随即显示。
6. 点击 10 次拆分。
7. 要将预测公式保存至列,请点击“分割”红色小三角并选择保存列 > 保存预测公式。
1. 选择分析 > 预测建模 > 模型比较。
2. 选择以 Prob 开头的所有列,并点击 Y,预测变量。
3. 点击确定。
图 11.8 最初的“模型比较”报表
该报表显示“分割”模型的“熵 R 方”和“广义 R 方”的值略高,而“误分类率”的值略低。
4. 点击“模型比较”红色小三角并选择 ROC 曲线。
显示了针对每个车型的 ROC 曲线,图 11.9 显示了其中一条曲线。
图 11.9 车型为“Medium”的 ROC 曲线
通过查看所有 ROC 曲线,您会发现这两个模型的预测能力差不多。
5. 点击“模型比较”红色小三角并选择 AUC 比较。
显示了针对每个车型的“AUC 比较”报表,图 11.10 显示了其中一个报表。
图 11.10 车型为“Medium”的 AUC 比较
该报表显示了两个模型的 AUC 值(ROC 曲线下面积)之间的差值的假设检验结果。通过检查这些结果,您会发现车型的任何水平的 AUC 值之间都不存在统计差异。
您可以得出结论认为这两个模型的预测能力没有很大的差异,原因如下:
• R 方值和 ROC 曲线相似。
• AUC 值之间不存在统计上的显著性差异。