“朴素 Bayes”平台将观测分为由分类响应变量的水平定义的几个类。用于分类的变量(或因子)在数据挖掘文档中通常称为特征。
对于每个类,朴素 Bayes 算法计算每个特征值出现的条件概率。若某特征是连续的,则估计其条件边缘密度。朴素 Bayes 方法假定在一个类中各个特征是相互独立的。(这是该方法被称为“朴素”的原因。)分类基于这样的原理:其特征值在某一类中具有很高的条件概率的观测有很高的概率属于该类。请参见 Hastie 等人 (2009)。
因为该算法只估计一维密度或分布,因此速度很快。这使它适合大数据集,特别是具有大量特征的数据集。使用观测的所有非缺失特征值来计算条件概率。
对于每个类,给每个观测分配一个朴素得分。一个观测的给定类的朴素得分是属于该类的训练观测的比例乘以观测的条件概率之积。观测属于某类的朴素概率是该类的朴素得分除以它在所有类上的朴素得分之和。将观测分配给它具有最高朴素概率的类。
警告:因为假定类成员之间的条件概率是相互独立的,因此朴素 Bayes 估计的概率效率低下。
朴素 Bayes 需要大量训练观测来确保所有预测变量值和类的表示。若正在将验证集中的观测分类且它具有在训练集中缺失的分类预测变量值,则平台将使用非缺失特征来预测。若某个观测缺失所有预测值,则预测响应为最常见的响应。预测公式处理缺失值的方式是:令其不对观测得分作出任何贡献。
有关朴素 Bayes 方法的详细信息,请参见 Hand 等人 (2001) 和 Shmueli et al.(2010)。