词条选择用于标识哪些词条最适合解释不同响应。分析中使用“广义回归”平台对文档词条矩阵 (DTM) 执行变量选择,并标识对响应影响最大的词条。词条选择可以用于二元响应,类似于情感分析,以及其他类型的响应。拟合模型对指定的响应列使用适当的响应分布。
提示:有关“词条选择”的示例,请选择帮助 > 样本数据库,打开 Chips.jmp 并运行“文本分析器 - 词条选择”表脚本。
“设置”报表支持您选择响应列、指定响应的目标水平以及调整模型的设置。指定模型设置后,点击“运行”按钮可运行模型。拟合模型随后显示在“汇总”报表中。请参见词条选择汇总报表。
选择某个响应列后,“目标水平”分级显示项随即显示。
• 对于名义型响应,选择响应的一个水平作为 logistic 回归模型中的目标水平;Logistic 回归模型中的响应是目标水平对比其他水平所有的组合。
• 对于有序型响应,所有响应水平最初都包含在模型中。使用本地数据过滤器,可以选择要从模型中排除的响应水平;所包含水平的底层数值采用正态响应分布建模。
注意:对于有序型响应,只有当响应列的数据类型为数值时才能拟合词条选择模型。
• 对于连续响应,使用本地数据过滤器直方图选择要从模型中排除的响应值;包含的值采用正态响应分布建模。
• 对于建模类型为“多重响应”的响应列,选择一个或多个响应水平作为二元 logistic 回归模型中的目标水平。若选择多个水平,且某个文档的“响应”列中存在所选的任何水平,则该文档属于目标水平。选择使用 AND 合并选项可要求所有选定的水平都显示在文档的“响应”列中,以便该文档包含在目标水平中。
默认情况下,“广义回归”模型使用提前停止的“弹性网络”估计方法和 AICc 验证方法。您可以在“模型设置”分级显示项中更改这些设置。请参见《拟合线性模型》中的广义回归模型。
注意:若在“文本分析器”启动窗口中指定了“验证”列,则“词条选择”报表中的“广义回归”平台将使用“验证”列作为验证方法。
“词条设置”定义回归模型中使用的文档词条矩阵 (DTM)。您可以更改加权方法以及 DTM 中包含的最大词条数;每个词条对应于 DTM 的一列。请注意,在语料库中出现次数少于 10 次的词条不包括在模型使用的 DTM 中。有关 DTM 选项的详细信息,请参见“文档词条矩阵规格”窗口。
运行分析后,“词条选择”报表由三个部分组成。“设置”报表包含用于指定分析的控件。请参见词条选择设置。在“设置”报表下面,对于您已经运行的每个分析,都有最初关闭的“广义回归”报表。请参见《拟合线性模型》中的广义回归模型。该报表的最后一部分是“汇总”报表。
图 12.12 “词条选择”报表
“汇总”报表包含一个“模型比较”表、一个“汇总”表及直方图、一个“文档得分”表、一个“词条得分”表和一个文本框。
“模型比较”表包含为每个拟合模型都包含一行。“汇总”报表的其余部分显示该表中当前选定模型的结果。
“汇总”表从总体上以及按模型响应的预测值来显示文档的计数和得分均值。“贡献均值”是“文档得分”表中贡献值的平均值。汇总直方图显示文档的总体贡献值的分布。该直方图是交互式的,因此您可以点击一个直条来突出显示“文档得分”表中的相应文档。
“文档得分”表显示每个文档的正贡献值和负贡献值,以及每个文档的预测值和实际值。对于二项响应模型,预测值是文档处于目标水平的概率;对于正态响应模型,预测值是来自每个文档的拟合模型的预测。若选择表中的一行,则相应文档的文本将显示在表下方的文本框中。
“词条得分”表列出了拟合模型所选择的每个词条、模型中该词条的系数、其 LogWorth 以及该词条在语料库中的出现次数。若选择表中的一行,则相应文档的文本将显示在表下方的文本框中。
文本框显示在“文档得分”表中选择的文档的文本或在“词条得分”表中选择的词条的上下文。
“词条选择”红色小三角菜单包含以下选项:
保存文档得分
(仅当在“汇总”表中选择了分析时才可用。)将“文档得分”表中的列保存到数据表中的新列。新列包含正贡献和负贡献,以及每个文档的预测值。
保存词条得分 DTM
(仅当在“汇总”表中选择了分析时才可用。)将当前所选分析中每个相关词条的列保存到数据表中。这些列包含每个文档的词条得分,该得分使用“词条选择”的“词条设置”中指定的权重。
保存预测公式
(仅当在“汇总”表中选择了分析时才可用。)将包含当前选定分析的预测公式的列保存到数据表中。
显示词条云
在“汇总”报表中显示或隐藏词云。词云显示当前所选分析中的系数词条。单词的大小由其系数的绝对值决定,颜色由其系数的符号决定。
删除
从“文本分析器”报表窗口中删除“词条选择”报表。