基本分析 > 文本分析器 > 潜在类分析
发布日期: 11/15/2021

Image shown here潜在类分析

在“文本分析器”平台中,使用潜在类分析,您可以将语料库中的文档分组为类似文档的聚类。“潜在类分析”报表包含模型规格、模型的 Bayesian 信息准则 (BIC) 值和“显示文本”按钮。若在“聚类混合概率”表中选择了一个或多个聚类,则点击“显示文本”按钮可打开一个窗口,其中包含最可能属于选定聚类的文档的文本。

“潜在类分析”红色小三角菜单包含以下选项:

显示选项

指定“潜在类分析”报表的内容。默认情况下,显示除每个聚类的词云之外的所有报表选项。

聚类混合概率

显示或隐藏某观测属于每个聚类的概率的表。

提示:您可以在“按聚类划分的混合概率”表中选择一个或多个行,以选择分配给相应聚类的观测。

按聚类划分的词条概率

显示或隐藏一个词条表,其中包含每个聚类的条件概率估计值(条件概率是指若某文档属于某个特定聚类,则该文档包含词条的概率)。默认情况下,该表中的词条在语料库中按频数的降序排序。

“最具特征的聚类”列显示词条出现在其中比率最高的聚类。

“最有可能的聚类”列显示最可能找到随机选择的、包含某词条的文档的聚类。

按聚类划分的前几位词条

显示或隐藏每个聚类中得分最高的十个词条的表。聚类 c 中词条 t 的得分 St,c 计算如下:

Equation shown here

其中,均值(pt) 是词条 t 按聚类划分的词条概率的均值,pt,c 是聚类 c 中词条 t 的按聚类划分的词条概率。

MDS 图

显示或隐藏一个多维尺度化图,它是聚类的邻近关系的两维表示。有关 MDS 图的详细信息,请参见《多元方法》中的多维尺度化。点击“显示文本”按钮将打开一个窗口,其中包含选定文档的文本。

按行划分的聚类概率

显示或隐藏“混合概率”表,该表显示每行的聚类成员关系的概率。“最可能的聚类”列指示每行具有最高成员关系概率的聚类。

按聚类划分的词云

显示或隐藏词云矩阵,每个聚类一个词云。

重命名聚类

允许您为一个或多个聚类添加说明性名称。

保存概率

将“混合概率”表中的值保存到数据表中的相应行。

保存概率公式

将每个聚类的公式列以及最可能的聚类的公式列保存至数据表。

保存的得分公式使用 Text Score() JSL 函数且将权重参数设置为 “LCA”

按聚类设定颜色

根据最可能的聚类为数据表中的每行设定颜色。

删除

从“文本分析器”报表中删除“潜在类分析”报表。

有关潜在类分析的详细信息,请参见《多元方法》中的潜在类分析

注意:在“文本分析器”平台中使用的 LCA 算法利用文档词条矩阵的稀疏性。因为这个原因,“文本分析器”平台中的 LCA 结果与“潜在类分析”平台中的结果不完全一致。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).