“文本分析器”红色小三角菜单包含以下选项,用于将信息保存到数据表、表列和列属性:
保存文档词条矩阵
将文档词条矩阵每个列 (最多到指定的最大词条数)都保存到数据表中去。
保存用于关联的堆叠 DTM
将文档词条矩阵的堆叠形式保存到 JMP 数据表。堆叠形式适用于“关联分析”平台中的分析。请参见《预测和专业建模》中的关联分析。若您在“文本分析器”启动窗口中指定 ID 变量,可使用该 ID 变量标识每个词条来自原始文本数据表中的哪一行。堆叠的表还包含一个用于启动“关联分析”的表脚本。
保存 DTM 公式
将建模类型为“向量”的公式列保存到数据表中。向量的长度取决于用户指定的“最大词条数”、“最小词条频数”和“权重”选项。生成的列使用 Text Score() JSL 函数。有关该函数的详细信息,请参见“帮助”>“脚本索引”。
保存词条表
创建一个 JMP 数据表,它包含词条列表中的每个词条、出现次数和包含每个词条的文档数。若您在选择“保存词条表”后选择了“按列对词条评分”选项,则会向“保存词条表”选项创建的表添加包含每个词条的得分的一列。
按列对词条评分
将基于指定列中的值的得分保存到“保存词条表”选项创建的 JMP 数据表中。每个词条的得分是指定列的均值用该词条在每行中的出现次数加权得到。若您已经选定“保存词条表”选项,则“按列对词条评分”选项会向“保存词条表”选项创建的数据表添加包含得分的一列。如若不然,则会为该词条表创建 JMP 数据表。若指定的列非“连续”列,则创建包含指定列中每个水平的得分的列。
当您从“文本分析器”红色小三角菜单选择“保存文档词条矩阵”和“保存 DTM 公式”选项时,将显示包含以下选项的“文档词条矩阵规格”窗口:
最大词条数
包括在文档词条矩阵中的最大词条数。
最小词条频数
一个词条要包括在文档词条矩阵中必须出现的最小次数。
权重
用于确定进入文档词条矩阵单元格的值的权重方案。
为“权重”提供了以下选项:
二进制
若词条在每个文档中出现,则分配 1;否则分配 0。这是默认权重,除非之前运行过 SVD 分析。
三进制
若词条在每个文档中出现一次以上,则分配 2;若仅出现一次,则分配 1,否则分配 0。
频数
分配每个文档中词条的出现次数计数。
频数对数
分配 log10( 1 + x ),其中 x 是每个文档中词条的出现次数计数。
TF IDF
分配 TF * log10( nDoc / nDocTerm )。词条频数 - 反转文档频数的缩写。这是默认权重。公式中的词条定义如下:
TF = 文档中的词条频数
nDoc = 语料库中的文档数
nDocTerm = 包含词条的文档数
注意:若在运行 SVD 分析后选择“保存文档词条矩阵”或“保存 DTM 公式”,“规格”窗口包含来自最近的 SVD 分析的规格。