JMP 提供以下方法来执行“判别分析”:“线性”、“二次”、“正则”和“宽线性”。前三个方法的基础模型不同。当协变量数很大时,“宽线性”方法是拟合线性模型的有效方式。
注意:您使 500 个以上的协变量进入时,“JMP 警示”建议您切换到“宽线性”方法。这是因为在列数过多时使用其他方法,计算时间会相当长。点击宽线性,许多列可切换到“宽线性”方法。点击继续可使用您最初选定的方法。
图 5.7 “线性”、“二次”和“正则”判别分析
在Figure 5.7 中举例说明了“线性”、“二次”和“正则”方法。在此处简要介绍一下这些方法。请参见保存的公式。
线性,共同协方差
执行线性判别分析。该方法假定组内协方差矩阵是相等的。请参见线性判别方法。
二次,不同协方差
执行二次判别分析。该方法假定组内协方差矩阵不同。该方法需要估计比线性方法更多的参数。若组样本大小很小,则可能得到不稳定的估计值。请参见二次判别方法。
若协变量在 X 变量的各水平之间保持不变,则它在组内协方差矩阵中的相关元素的协方差为零。为了使矩阵可以求逆,零协方差被替换为相应的合并组内协方差。完成后,一条注释会显示在报表窗口中,标识有问题的协变量和 X 的水平。
提示:二次方法的缺点在小数据集中显露出来。它很难构造可逆且稳定的协方差矩阵。正则法在允许组间差异的基础上改善了以上问题。
正则,折衷方法
当组内协方差矩阵不同时提供使估计值稳定的两种方法。当组样本大小很小时该选项很有用。请参见正则,折衷方法和正则判别方法。
宽线性,许多列
基于很多协变量拟合模型时很有用,此时使用其他方法计算会很困难。该方法假定所有组内协方差矩阵是相等的。该方法使用奇异值分解方法来计算合并的组内协方差矩阵的逆矩阵。请参见宽线性算法的说明。
注意:使用“宽线性”选项时,通常为其他判别方法显示的几个功能不可用。这是因为该算法不显式计算很大的合并组内协方差矩阵。
正则判别分析由两个非负参数确定。
• 第一个参数(Lambda,收缩到共同协方差)指定如何混合单个协方差矩阵和组协方差矩阵。对于该参数,1 对应于线性判别分析,0 对应于二次判别分析。
• 第二个参数(Gamma,收缩到对角线)是一个乘数,指定对非对角元素(各变量上的协方差)应用多少缩小量。若您选择 1,则强制协方差矩阵为对角矩阵。
为这两个参数都赋值 0 与请求执行二次判别分析的效用相同。类似地,为 Lambda 赋值 1 并为 Gamma 赋值 0 表示请求线性判别分析。使用Table 5.1 帮助您决定正则化。有关线性、二次和正则判别分析的示例,请参见Figure 5.7。
使用较小的 Lambda | 使用较大的 Lambda | 使用较小的 Gamma | 使用较大的 Gamma |
---|---|---|---|
协方差矩阵不同 | 协方差矩阵相同 | 变量相关 | 变量不相关 |
很多行 | 很少行 |
|
|
很少变量 | 很多变量 |
|
|