Lipid Data.jmp 数据表包含来自加利福尼亚州医院 95 个研究对象的血液测量值、体格检查测量值和问卷数据。您关注于创建要在将来分析中使用的验证列。
1. 选择帮助 > 样本数据库,然后打开 Lipid Data.jmp。
2. 选择分析 > 分布。
3. 选择性别,然后点击 Y,列。
4. 点击确定。
图 11.1 Lipid Data.jmp 中性别的分布
Figure 11.1演示了数据集中性别的分布。请注意,表示出来的男性和女性的比例不相同。由于数据中的女性稀少,您想要确保验证集与训练集之间的性别比例均衡。
5. 选择分析 > 预测建模 > 生成验证列。
6. 选择性别并点击分层列。
7. 点击确定。
将显示“生成验证列”报表,其中包含所选验证方法的说明。还可以通过选项来更改比率、列类型或设置种子。
8. (可选)在报表的“选项”部分中的随机种子旁边键入 1234。
9. 点击执行。
验证列将添加至数据表。您可以通过创建马赛克图来探索验证集和训练集的分布。
10. 选择分析 > 以 X 拟合 Y。
11. 将验证分配给 Y,响应,将性别分配给 X,因子。
12. 点击确定。
图 11.2 性别在验证集和训练集之间的分布
Figure 11.2演示了性别在每个验证集和训练集之间的分布。请注意,男性和女性都有大约 75% 位于训练集中,并且男性和女性都有大约 25% 位于验证集中。