文本分析选项

发布日期: 09/18/2023

“文本分析器”红色小三角菜单包含以下分析选项：

潜在类分析

使用稀疏矩阵例程对二进制加权文档词条矩阵执行潜在类分析。请参见潜在类分析。

当您从“文本分析器”红色小三角菜单选择“潜在类分析”时，将显示包含以下选项的“规格”窗口：

最大词条数

包括在潜在类分析中的最大词条数。

最小词条频数

一个词条要包括在潜在类分析中必须出现的最小次数。

聚类数

潜在类分析中的聚类数。

潜在语义分析, SVD

执行文档词条矩阵的偏奇异值分解。请参见潜在语义分析 (SVD)。

判别分析

根据文档词条矩阵预测组或类别中每个文档的成员关系。请参见判别分析。

词条选择

分析哪些词条最适合解释不同响应。当响应是评级时，“词条选择”也有助于情感分析。请参见词条选择。

情感分析

（仅当“语言”选项设置为“英语”时才可用。）使用词法分析识别文档中的情感词条，并对文档的正面、负面和整体情感进行评分。请参见情感分析。

在“文本分析器”平台中，分析选项基于文档词条矩阵 (DTM)。通过为词条列表中的每个词条（最大为指定的最大词条数）创建列来生成 DTM。每个文本文档（等价于数据表中的行）对应 DTM 的一行。DTM 单元格中的值取决于用户在“规格”窗口中指定的权重类型。

图 12.10 显示“奇异值分解规格”窗口。当您从“文本分析器”红色小三角菜单选择对文档词条矩阵执行奇异值分解的选项时，将显示包含以下选项的“规格”窗口：

最大词条数

包括在奇异值分解中的最大词条数。

最小词条频数

一个词条必须要包括在奇异值分解中的最小次数。

权重

用于确定进入文档词条矩阵单元格的值的权重方案。在“文档词条矩阵规格”窗口中介绍了各个权重方案选项。

奇异向量数

奇异值分解中的奇异向量数。默认值为文档数、词条数或 100 中的最小值。

中心化和统一尺度

文档词条矩阵的中心化和统一尺度选项。您可以选择中心化和统一尺度、中心化和未中心化。默认情况下，文档词条矩阵已中心化且统一尺度。

图 12.10 “SVD 规格”窗口

SVD Specification Window

需要更多信息？有问题？从 JMP 用户社区得到解答 (community.jmp.com).