为了避免过度拟合以及为了选择较好的预测模型,可以在建模前将数据划分为多个集。该过程使用部分原始数据来估计参数,并使用其余的数据来调优和/或评估参数。在 JMP Pro 中,您可以通过以下方式将数据划分为两个或三个集:
训练和评估
将数据划分为两个集,称为“训练”和“验证”。训练集用于估计模型参数。验证集用于独立评估拟合模型的性能。
训练和调优
将数据划分为两个集,称为“训练”和“验证”。训练集用于估计模型参数。在模型拟合算法中使用验证集对模型参数进行调优,最终选择具有良好预测能力的模型。在这种情况下不执行独立的模型评估。
训练、调优和评估
将数据划分为三个集,称为“训练”、“验证”和“测试”。训练集用于估计模型参数。在模型拟合算法中使用验证集对模型参数进行调优,最终选择具有良好预测能力的模型。测试集随后用于独立评估拟合模型的性能。