基本分析 > 文本分析器 > 判别分析
发布日期: 08/07/2020

判别分析

判别分析根据文档词条矩阵 (DTM) 中的列预测组或类别中每个文档的成员关系。具体而言,判别分析预测每个文档归属哪一个响应列类别。选择“判别分析”选项时,您必须选择一个包含类别或组的响应列。通过 GTM 列预测组成员关系。有关判别分析的详细信息,请参见《多元方法》中的判别分析

“文本分析器”平台中的判别分析方法是基于中心化 DTM 的奇异值分解。每一组响应列都有自己的组均值,用来对 DTM 进行中心化。“文本分析器”平台中的判别分析方法的执行速度比“判别分析”平台快,因为它利用了 DTM 的稀疏性。

“判别分析规格”窗口

“文本分析器”平台中的“判别分析”选项基于“文档词条矩阵”(DTM)。通过为词条列表中的每个词条(最大为指定的最大词条数)创建列来生成 DTM。每个文本文档(等价于数据表中的行)对应 DTM 的一行。DTM 单元格中的值取决于用户在“规格”窗口中指定的权重类型。

当您从“文本分析器”红色小三角菜单选择“判别分析”选项时,将显示包含以下选项的“规格”窗口:

最大词条数

包括在判别分析中的最大词条数。

最小词条频数

一个词条要包括在判别分析中必须出现的最小次数。

权重

用于确定进入文档词条矩阵单元格的值的权重方案。在“文档词条矩阵规格”窗口中介绍了各个权重方案选项。

奇异向量数

判别分析中的奇异向量数。默认值为文档数、词条数或 100 中的最小值。

“判别分析”报表

默认情况下,“文本分析器”平台中的“判别分析”报表包含两个打开的报表:“分类汇总”和“判别得分”。其他报表最初是关闭的。

“判别分析”报表还包含以下报表:

词条均值

提供用在判别分析中的词条表。这些词条对应 DTM 列。该表包含每个词条在每个组中的均值,以及每个词条的总均值和加权标准差。

到各组的平方距离

提供一个表,其中包含到每个文档的每个组的 Mahalanobis 距离的平方。有关 Mahalanobis 距离的详细信息,请参见《多元方法》中的离群值分析

各组概率

提供一个表,其中包含某个文档属于每组的概率。

分类汇总

提供汇总判别得分的报表。该报表对应于“判别分析”平台报表中的“得分汇总”报表。

判别得分

提供包含每个文档的预测类别和其他支持信息的表。该表对应于“判别分析”平台报表中的“判别得分”表。

“判别分析”报表选项

“判别分析”红色小三角菜单包含以下选项:

典型图

显示或隐藏典型空间中的文档和组均值图。典型空间是最能分隔各组的空间。若响应变量有两个以上水平,您必须指定典型坐标数。若指定了两个以上的典型坐标,该选项生成典型图矩阵。

保存概率

将概率列保存到每个响应水平的数据表以及包含最可能响应的列。“最可能的”响应列包含具有基于模型的最高概率的水平。

每个概率列给出某观测在该响应水平中的成员关系的后验概率。“响应概率”列属性保存至每个概率列。有关“响应概率”列属性的详细信息,请参见《使用 JMP》中的列属性

保存概率公式

将公式列保存至数据表以便预测最可能的响应。第一个保存的列包含使用 Text Score() 函数计算每个响应水平的概率的公式。还有一些列包含每个响应水平的概率,以及一个包含预测响应的列。

保存典型得分

将包含每个观测的典型空间得分的列保存至数据表。典型空间是最能分隔各组的空间。第 k 个典型得分的列名为典型<k>

删除

从“文本分析器”报表窗口中删除“判别分析”报表。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).