本例使用一年内从美国的 16 个气象站收集的每周气象数据。运行数据表中的“气象站位置”脚本来查看位置图。并非每个气象站都提供一年中每周的周温度测量值。您关注的是根据数据收集的日期为该数据表创建验证列。对于每个气象站,您希望使用前 60% 的观测进行训练,使用接下来 25% 的观测进行验证,使用最后 15% 的观测进行测试。本例演示在此类情形中使用“批次 ID”列的重要性。
1. 选择帮助 > 样本数据库,然后打开 Functional Data/Weekly Weather Data.jmp。
2. 选择分析 > 预测建模 > 生成验证列。
3. 选择一年的某一周并点击割点列。
4. 点击确定。
5. 在“确定割点使用的是”旁边的列表中,选择比例。
6. 在“训练集”、“验证集”和“测试集”旁边的框中,分别输入 0.60、0.25 和 0.15。
7. 在“新建列名”旁边的框中,键入“割点验证”。
8. 点击执行。
名为“割点验证”的验证列将添加至数据表。
9. 选择分析 > 制表。
10. 点击 ID 并将其拖至行的拖放区。
11. 点击割点验证并将其拖至数目的顶部。
12. 点击行百分比并将其拖至单元格顶部。
图 11.4 割点验证列比例
Figure 11.4显示并非所有的气象站都具有正确的训练集、验证集和测试集比例。使用“批次 ID”列获取正确的百分比。
1. 选择分析 > 预测建模 > 生成验证列。
2. 选择一年的某一周并点击割点列。
3. 选择 ID 并点击割点批次 ID。
4. 点击确定。
5. 在“确定割点使用的是”旁边的列表中,选择比例。
6. 在“训练集”、“验证集”和“测试集”旁边的框中,分别输入 0.60、0.25 和 0.15。
7. 在“新建列名”旁边的框中,键入“割点批次验证”。
8. 点击执行。
名为“割点批次验证”的验证列将添加至数据表。
9. 选择分析 > 制表。
10. 点击 ID 并将其拖至行的拖放区。
11. 点击割点批次验证并将其拖至数目的顶部。
12. 点击行百分比并将其拖至单元格顶部。
图 11.5 使用批次 ID 比例的割点验证列
Figure 11.5显示使用“割点批次 ID”列可确保每个气象站具有更接近指定值的训练集、验证集和测试集比例。