节点拆分基于 LogWorth,该统计量出现在节点的“候选项”报表中。LogWorth 按如下方式计算:
-log10(p 值)
其中,调整的 p 值计算方式较为复杂,这种方式将各种可能的拆分方式都考虑在内。相对于未调整的 p 值,这种计算极为合理,它支持 X 包含许多水平,而 Bonferroni p 值仅支持 X 包含少量水平。有关该方法的详细信息在 Sall (2002) 中讨论。
对于连续响应,节点报表中会显示“平方和”(SS),它是拆分引起的误差平方和的变化。
已经选取的候选项平方和如下:
SS测试 = SS父级 - (SS右 + SS左),其中,节点中的 SS 为 s2(n - 1)。
针对连续响应的报表中还会显示“差值”统计量,它是父节点的两个子节点的预测值之间的差值。
对于分类响应,报表中会显示 G2(似然比卡方)。它实际上是 [自然对数] 熵的两倍,或是熵的变化的两倍。对于每个观测,熵为 Σ -log(p),其中,p 是对应的响应水平发生的概率。
已经选取的候选项 G2 如下:
G2 测试 = G2 父级 - (G2 左 + G2 右)。
分割实际上有两个比率;一个比率用于训练模型,即为一般定义上的计数占总数的比例,另一个比率稍微偏离 0。因为使用的概率永不为 0,因此我们能够基于验证集或其他排除在训练集之外的数据集计算概率的对数(用于熵 R 方的计算)。