“分割”平台根据预测变量和响应值之间的关系将数据递归分割,从而创建决策树。分割的发展变化很快,基本涵盖了以下几种算法:决策树、CARTTM、CHAIDTM、C4.5、C5 等等。因为以下原因,该方法通常被视为一种数据挖掘方法:
• 它适用于在不具备良好的先验模型的情况下探索变量间的关系
• 它可以轻松处理大型问题
• 结果可以解释
分割的经典应用是创建某疾病的诊断启发法。给出许多对象的症状和结果后,可以使用分割来生成问题的层次结构以帮助诊断新患者。
预测变量可以是连续或分类变量(名义型或有序型)。若预测变量是连续变量,则按切割值创建拆分。样本根据其值是低于还是高于该切割值进行划分。若预测变量是分类变量,则将样本分为两个水平组。
响应也可以是连续或分类变量(名义型或有序型)。若响应是连续变量,则平台拟合响应值的均值。若响应是分类变量,则拟合的值是响应水平的概率。在任一情况下,选择拆分来使得两个拆分节点之间的响应差值最大化。
有关拆分准则的详细信息,请参见“分割”平台的统计详细信息。