“朴素 Bayes”平台概述

JMP 13.2 联机文档

JMP 支持

文档反馈
您的反馈对我们来说很重要。给我们发表您对该文档的任何意见。

预测和专业建模 • 朴素 Bayes • “朴素 Bayes”平台概述

•

“朴素 Bayes”平台概述

“朴素 Bayes”平台将观测分为由分类响应变量的水平定义的几个类。用于分类的变量（或因子）在数据挖掘文档中通常称为特征。

对于每个类，朴素 Bayes 算法计算每个特征值出现的条件概率。若某特征是连续的，则估计其条件边缘密度。朴素 Bayes 方法假定在一个类中各个特征是相互独立的。（这是该方法被称为“朴素”的原因。）分类基于这样的原理：其特征值在某一类中具有很高的条件概率的观测有很高的概率属于该类。请参见 Hastie 等人 (2001) 中所述。

因为该算法只估计一维密度或分布，因此速度很快。这使它适合大数据集，特别是具有大量特征的数据集。使用观测的所有非缺失特征值来计算条件概率。

对于每个类，给每个观测分配一个朴素得分。一个观测的给定类的朴素得分是属于该类的训练观测的比例乘以观测的条件概率之积。观测属于某类的朴素概率是该类的朴素得分除以它在所有类上的朴素得分之和。将观测分配给它具有最高朴素概率的类。

警告：因为假定类成员之间的条件概率是相互独立的，因此朴素 Bayes 估计的概率效率低下。

朴素 Bayes 需要大量训练观测来确保所有预测变量值和类的表示。若正在将新观测分类且它具有在训练集中缺失的分类预测变量值，则平台将使用非缺失特征来预测。但是，若您保存一个预测公式，该公式不处理缺失值。

有关朴素 Bayes 方法的详细信息，请参见 Hand 等人 (2016) 和 Shmueli 等人 (2010) 所述。