「単純Bayes」プラットフォームは、カテゴリカルな応答変数の水準のいずれかに、各データ行を分類します。この「カテゴリカルな応答変数の水準」は、「クラス」とも呼ばれています。また、分類に使用される説明変数は、データマイニングに関する文献では、「特徴(feature)」とも呼ばれています。
単純Bayes法(ナイーブベイズ法)は、特徴で条件付けたときの、各クラスに属する条件付き確率(事後確率)を計算します。なお、特徴が連続尺度の場合は、1変量正規分布の密度関数が使われます。単純Bayes法では、「各クラスで条件付けたときに、特徴が互いに独立である」と仮定します(このような単純な仮定を置いているので、この手法は「単純(ナイーブ)」と呼ばれています)。各データ行は、特徴で条件付けたときの条件付き確率(事後確率)が最大となっているクラスに分類されます。Hastie et al.(2009)を参照してください。
単純Bayes法は、1変量の密度関数や確率しか計算に使わないため、計算時間がとても短くてすみます。そのため、大規模データや、特徴数の多いデータに向いています。単純Bayes法では、説明変数が欠測値となっていないデータ行に対して、事後確率が計算されます。
各データ行に対して、各クラスのスコアが計算されます。このスコアは、学習セットにおいて該当のクラスに属しているものの割合(事前確率)に、該当のクラスで条件付けたときの各特徴の条件付き確率の総積を掛けたものです。特徴で条件付けたときのあるクラスに属する条件付き確率(事後確率)は、こうして求められた各クラスのスコアを、全クラスのそれらのスコアの和で割ったものです。そして、各データ行は、この事後確率が最大となっているクラスに分類されます。
注意: 単純Bayes法では、クラスで条件付けたときの特徴の条件付き確率において、独立性を仮定しています。そのため、単純Bayes法による分類は精度が高くありません。
一般的には、学習データに含まれている特徴値やクラスに対して分類は行われます。なお、「単純Bayes」プラットフォームでは、検証セットにて分類を行う時に学習セットには含まれていない特徴値がある場合には、それらを省き、学習セットに含まれている特徴値だけを使用して予測を行います。すべての特徴値が学習データには存在していない場合、最も頻度の高いクラス(事前確率が最も大きいクラス)に分類します。このように、特徴値の欠測部分を事後確率の計算から省くことにより、それらの欠測部分を処理して予測値を求めます。
単純Bayesについての詳細は、Hand et al.(2001)およびShmueli et al.(2010)を参照してください。