数据 |
本例使用来自 442 位糖尿病患者的数据。这些数据包括基准临床和实验室数据,以及每位患者在初次访视一年后得到的糖尿病疾病进展的二元测度。该测度将疾病进展归为“低”或“高”两类。 |
方法 |
本例使用两个具有共享的 X 轴、轴定制设置和注解的散点图。 |
目标 |
本例的目标是比较和理解两种分类模型对较“高”程度疾病进展的预测概率。 |
您需要构建一个分类模型,用来根据临床和实验室变量预测疾病进展。您将构建两个不同的分类模型、保存预测公式,并比较它们的预测分类。
1. 选择帮助 > 样本数据文件夹,然后打开 Diabetes.jmp。
2. 点击 Y 二值型的决策树脚本旁边的绿色小三角以生成决策树预测模型。
3. 点击“‘Y 二值型’分割”旁边的红色小三角,然后选择保存列 > 保存预测公式。您可以关闭该窗口。
这会将概率公式保存至数据表。
4. 在数据表中,右击 Prob(Y 二值型= = High) 列并选择列信息。
5. 将列名改为分割:概率“High”并点击确定。
6. 点击 Y 二值型的神经脚本旁边的绿色小三角以生成神经网络预测模型。
7. 点击“模型 NTanH(3)”红色小三角并选择保存刻画公式。您可以关闭该窗口。
这会将概率公式保存至数据表。
8. 在数据表中,右击概率(Y 二值型=High) 列并选择列信息。
9. 将列名改为神经:概率“High”并点击确定。
您将比较模型预测的患者疾病进展程度高的概率。
1. 选择图形 > 图形生成器。
2. 选择分割:概率“High”并将其拖至 X 区域。
3. 选择神经:概率“High”,并将其拖至 X 区域中分割:概率“High”的右侧。这将创建另一个 X 轴。
图 4.18 将“神经:概率‘High’”拖至“分割:概率‘High’”的右侧
4. 选择 Y 二值型并将它拖至“叠加”区域。
5. 点击“图形生成器”红色小三角并选择图形间距。
6. 在“图形间距”旁边键入 6 并点击确定。
这会增加两个 X 轴之间的间距。
图 4.19 初始模型概率图形
在两个建模平台中,默认阈值为 0.50。这意味着,若患者的预测概率比“High”高 0.50,则模型将其分类预测为“High”。使用参考线在图中显示阈值。
1. 右击分割:概率“High”X 轴并选择轴设置。
2. 在“尺度”部分中,点击倒序旁边的框。
3. 在“刻度/箱增量”部分中,将副刻度数设置为 2。
4. 在“参考线”部分中,在值和标签旁边的框中键入 0.50。
5. 在“线条样式”旁边的框中,输入 3。3 指示参考线的粗细。
6. 点击添加。
图 4.20 X 轴设置
7. 点击确定。
8. 右击“分割:概率‘High’”X 轴并选择编辑 > 复制轴设置。右击“神经:概率‘High’”X 轴并选择编辑 > 粘贴轴设置。
9. 点击完成。
1. 在主菜单中,点击工具 > 线条。在“分割:概率‘High’”图形中的参考线左侧绘制一条水平线。
图 4.21 绘制在“分割:概率‘High’”参考线左侧的水平线
2. 右击这条线并选择箭头指向。
箭头应指向远离参考线的方向。
3. 在主菜单中,点击工具 > 注解,然后在图形中的箭头上方点击。
4. 在文本框中键入归类为“High”。请参见图 4.22。
5. 在“神经:概率‘High’”图形中重复第 1 步到第 4 步。
图 4.22 预测概率的分布
图中显示两个模型的预测概率分布不同。分割模型有五个预测得分水平,而神经模型得分分散在整个得分范围内。对于这两个模型,在每个图的最右侧都聚集了一组蓝色数据点。这是两个模型都能正确分类的较低程度测试对象,因为它们落在阈值的右侧。