判别分析尝试将由连续变量值描述的一系列观测值进行分组。由分类变量 X 定义的组成员关系由连续变量来预测。这些变量称为协变量并用 Y 表示。
判别分析不同于 Logistic 回归。在 Logistic 回归中,分类变量是随机的并由连续变量来预测。在判别分析中,分类是固定的而协变量 (Y) 是通过随机变量实现的。但是,在这两种方法中,分类值均由连续变量来预测。
“判别”平台提供拟合模型的四种方法。所有方法均使用 Mahalanobis 距离估计每个观测到每个组的多元均值(重心)的距离。您可以指定组成员关系的先验概率,在距离计算中要采用它们。观测会被归类到距离最近的组中。
拟合方法包括以下几种:
• 线性—假定组内协方差矩阵是相等的。假定由 X 定义的组的协变量均值不同。
• 二次—假定组内协方差矩阵不同。这要求估计比线性方法更多的参数。若组样本大小很小,则可能得到不稳定的估计值。
• 正则—在组内协方差矩阵不同时提供两种方法来增加估计值的稳定性。若组样本大小很小,这是很有用的选项。
• 宽线性—在拟合有很多协变量的模型时很有用,此时其他方法可能计算困难。它假定所有协方差矩阵是相等的。