在“文本分析器”平台中,使用潜在类分析,您可以将语料库中的文档分组为类似文档的聚类。“潜在类分析”报表包含模型规格、模型的 Bayesian 信息准则 (BIC) 值和“显示文本”按钮。若在“聚类混合概率”表中选择了一个或多个聚类,则点击“显示文本”按钮可打开一个窗口,其中包含最可能属于选定聚类的文档的文本。
“潜在类分析”红色小三角菜单包含以下选项:
显示选项
指定“潜在类分析”报表的内容。默认情况下,显示除每个聚类的词云之外的所有报表选项。
聚类混合概率
显示或隐藏某观测属于每个聚类的概率的表。
提示:您可以在“按聚类划分的混合概率”表中选择一个或多个行,以选择分配给相应聚类的观测。
按聚类划分的词条概率
显示或隐藏一个词条表,其中包含每个聚类的条件概率估计值(条件概率是指若某文档属于某个特定聚类,则该文档包含词条的概率)。默认情况下,该表中的词条在语料库中按频数的降序排序。
“最具特征的聚类”列显示词条出现在其中比率最高的聚类。
“最有可能的聚类”列显示最可能找到随机选择的、包含某词条的文档的聚类。
按聚类划分的前几位词条
显示或隐藏每个聚类中得分最高的十个词条的表。聚类 c 中词条 t 的得分 St,c 计算如下:
其中,均值(pt) 是词条 t 按聚类划分的词条概率的均值,pt,c 是聚类 c 中词条 t 的按聚类划分的词条概率。
MDS 图
显示或隐藏一个多维尺度化图,它是聚类的邻近关系的两维表示。有关 MDS 图的详细信息,请参见《多元方法》中的多维尺度化。点击“显示文本”按钮将打开一个窗口,其中包含选定文档的文本。
按行划分的聚类概率
显示或隐藏“混合概率”表,该表显示每行的聚类成员关系的概率。“最可能的聚类”列指示每行具有最高成员关系概率的聚类。
按聚类划分的词云
显示或隐藏词云矩阵,每个聚类一个词云。
重命名聚类
允许您为一个或多个聚类添加说明性名称。
保存概率
将“混合概率”表中的值保存到数据表中的相应行。
保存概率公式
将每个聚类的公式列以及最可能的聚类的公式列保存至数据表。
保存的得分公式使用 Text Score() JSL 函数且将权重参数设置为 “LCA”。
按聚类设定颜色
根据最可能的聚类为数据表中的每行设定颜色。
删除
从“文本分析器”报表中删除“潜在类分析”报表。
有关潜在类分析的详细信息,请参见《多元方法》中的潜在类分析。
注意:在“文本分析器”平台中使用的 LCA 算法利用文档词条矩阵的稀疏性。因为这个原因,“文本分析器”平台中的 LCA 结果与“潜在类分析”平台中的结果不完全一致。