朴素 Bayes 方法将某观测归入在给出特征值的情况下它是其成员的概率最高的类。该方法假定特征在每个类中有条件独立。
用 C1, …, CK 表示可能的分类。用 X1, X2, …, Xp 表示特征或预测变量。
按以下方式计算具有预测变量值 x1, x2, …, xp 的观测属于 Ck 类的条件概率:
,
其中,R 是正则化常数。在上面的公式中,按以下方式确定 Xj = xj 的观测属于 Ck, P(xj|Ck) 类的条件概率:
• 若 Xj 是分类变量:
• 若 Xj 是连续变量:
其中,φ 是标准正态密度函数,m 和 s 分别是 Ck 类中预测变量值的均值和标准差。
某观测属于 Ck, P(Ck) 类的非条件概率按以下方式计算:
将某观测归入其条件概率最大的类。
注意:在 P(Ck) 的公式中,0.5 是先验偏倚因子。该值是默认值。要更改先验默认因子,请转至“文件”>“首选项”>“平台”>“朴素 Bayes”,然后选中“先验偏倚”复选框,再更改该值。