通过选择分析 > 文本分析器来启动“文本分析器”平台。
图 12.6 “文本分析器”启动窗口
有关“选择列”红色小三角菜单中选项的详细信息,请参见《使用 JMP》中的“列过滤器”菜单。“文本分析器”启动窗口包含以下选项:
文本列
分配包含文本数据的列。若您指定多个列,则为每个列创建单独的分析。
验证
在 JMP Pro 中,您可以输入一个“验证”列。若在“选择列”列表中没有选择任何列的情况下点击“验证”按钮,您可以向数据表添加一个验证列。有关“生成验证列”实用工具的详细信息,请参见《预测和专业建模》中的生成验证列。
“验证”列的指定并不影响文档词条矩阵的计算。不过,指定“验证”列后,只有训练集可用于“潜在类分析”、“潜在语义分析”、“主题分析”和“判别分析”选项。“验证”列用作“词条选择”选项的“广义回归”验证方法。
ID
分配一个列,用于在“保存用于关联的堆叠 DTM”输出数据表中标识不同响应者。该输出数据表适合进行关联分析。该列还用于在“潜在类分析”报表中标识不同响应者。
依据
标识用于创建报表的一个列,该报表包括变量的每个水平的单独分析。若指定了多个“依据”变量,将为“依据”变量水平的每种可能组合生成单独的报表。
注意:若您指定“依据”变量,则“定制 Regex”选项和设置适用于“依据”变量的所有水平。
语言
指定用于文本处理的语言。它影响词干处理和停止词、重新编码以及短语的内置列表。该选项与运行 JMP 的语言无关。除非设置了“语言”平台首选项,否则根据 JMP“显示语言”首选项设置“语言”选项。不过,“文本分析器”中的“语言”选项不支持“韩语”。若“JMP 显示语言”为“韩语”,该选项默认显示“英语”。
每个短语的最大单词数
指定一个短语作为分析中的短语可以包含的最大单词数。
最大短语数
指定在短语列表中显示的最大短语数。
每个单词的最小字符数
指定一个单词作为分析中的词条必须包含的字符数。
每个单词的最大字符数
指定一个单词作为分析中的词条可以包含的最大字符数(最多 2000)。
词干处理
(仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”时才可用。)指定合并具有类似开头字符但是结尾不同的词条的方法。提供了以下选项:
无需词干处理
不合并词条。
要组合的词干
仅处理这些词条的词干:要将两个或更多词条的词干处理为同一词条。
处理所有词条的词干
处理所有词条的词干。
注意:“词干处理”选项的使用还影响已添加到词条列表中的短语。在短语中的词条已进行词干处理后进行短语标识。例如,“dogs bark”和“dog barks”都匹配指定的短语“dog· bark·”。
标记化
(仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”时才可用。)指定将文本解析为词条或标记的方法。提供以下标记化选项:
Regex
使用默认的一组内置正则表达式来解析文本。若您要添加、删除或编辑用于解析文本的这组正则表达式,请选择定制 Regex 选项。请参见在“正则表达式编辑器”中定制 Regex。
基本单词
基于一组通常分隔单词的字符将文本解析为单词。这些字符包括空格、制表符、换行符和大多数标点符号。若您希望将数字解析为供分析的词条,请选择将数字视为单词选项。若您不选择该选项,将在标记化步骤中忽略仅包含数字的分隔符之间的文本片段。
提示:您可以在使用“基本单词”标记化方法的文本分析器报表中使用显示选项 > 显示分隔符选项来查看这组默认分隔符。
定制 Regex
(仅适用于 Regex 标记化方法。)您可以使用“文本分析器正则表达式编辑器”窗口修改 Regex 设置。使用该选项来处理非传统单词。示例包括电话号码或由字符和数字组成的单词。除非默认 Regex 方法无法给出您所需的结果,否则不建议使用“定制 Regex”选项。当您的文本包含默认 Regex 方法无法识别的结构时就会出现这种情况。请参见在“正则表达式编辑器”中定制 Regex。
将数字视为单词
(仅适用于“基本单词”标记化方法。)允许数字标记化为分析中的词条。选择该选项时,对于包含数字位的词条,忽略“每个单词的最小字符数”设置。
在启动窗口上点击确定后,若您在启动窗口中选择了定制 Regex,将显示“文本分析器正则表达式编辑器”窗口。否则,显示文本分析器报表。
注意:对文本输入的处理不区分大小写。在标记化和所有分析步骤之前,所有文本都将在内部转换为小写形式。该转换在文本分析器输出中影响正则表达式的处理和词条的聚合。