“信息性缺失”选项支持对预测变量的缺失值进行信息性处理。拟合的模型是确定性模型。“信息性缺失”选项位于启动窗口中,默认情况下选定它。选定信息性缺失时,按以下方式处理缺失值:
• 对于分类预测变量,若行包含缺失值,则作为该变量的一个单独水平进行分析。
• 按以下方式将包含连续预测变量的缺失值的行分配给拆分:对连续预测变量的值排序。先考虑将缺失行放置在排序值的低端,构造所有拆分。然后考虑将缺失行放置在排序值的高端,再次构造所有拆分。最后通过使用 LogWorth 准则确定出最佳拆分。要对给定的预测变量进一步拆分,算法会按照对该预测变量进行第一次拆分时确定好的高值或者低值来计算缺失值是高值还是低值。
若未选定“信息性缺失”选项,按以下方式处理缺失值:
• 将具有缺失值的预测变量作为拆分变量时,将该预测变量上具有缺失值的每行随机分配给拆分两侧中的一侧。
• 首次将具有缺失值的预测变量作为拆分变量时,将一个插补列添加到显示插补数的“汇总报表”。进行其他插补时,更新“插补”列(Figure 4.15),其中执行了五次插补。
注意:插补数可能大于包含缺失值的行数。在每次拆分时进行插补。可以随机多次分配具有缺失值的行。每次将行随机分配时,它递增插补计数。
图 4.15 汇总报表中的插补消息