启动“文本分析器”平台

通过选择分析 > 文本分析器来启动“文本分析器”平台。

图 12.6 “文本分析器”启动窗口

Image shown here

有关“选择列”红色小三角菜单中选项的详细信息，请参见《使用 JMP》中的“列过滤器”菜单。“文本分析器”启动窗口包含以下选项：

文本列

分配包含文本数据的列。若您指定多个列，则为每个列创建单独的分析。

Image shown here 验证

在 JMP Pro 中，您可以输入一个“验证”列。若在“选择列”列表中没有选择任何列的情况下点击“验证”按钮，您可以向数据表添加一个验证列。有关“生成验证列”实用工具的详细信息，请参见《预测和专业建模》中的生成验证列。

“验证”列的指定并不影响文档词条矩阵的计算。不过，指定“验证”列后，只有训练集可用于“潜在类分析”、“潜在语义分析”、“主题分析”和“判别分析”选项。

分配一个列，用于在“保存用于关联的堆叠 DTM”输出数据表中标识不同响应者。该输出数据表适合进行关联分析。该列还用于在“潜在类分析”报表中标识不同响应者。

依据

标识用于创建报表的一个列，该报表包括变量的每个水平的单独分析。若指定了多个“依据”变量，将为“依据”变量水平的每种可能组合生成单独的报表。

注意：若您指定“依据”变量，则“定制 Regex”选项和设置适用于“依据”变量的所有水平。

语言

指定用于文本处理的语言。它影响词干处理和停止词、重新编码以及短语的内置列表。该选项与运行 JMP 的语言无关。除非设置了“语言”平台首选项，否则根据 JMP“显示语言”首选项设置“语言”选项。不过，“文本分析器”中的“语言”选项不支持“韩语”。若“JMP 显示语言”为“韩语”，该选项默认显示“英语”。

每个短语的最大单词数

指定一个短语作为分析中的短语可以包含的最大单词数。

最大短语数

指定在短语列表中显示的最大短语数。

每个单词的最小字符数

指定一个单词作为分析中的词条必须包含的字符数。

每个单词的最大字符数

指定一个单词作为分析中的词条可以包含的最大字符数（最多 2000）。

词干处理

（仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”时才可用。）指定合并具有类似开头字符但是结尾不同的词条的方法。提供了以下选项：

无需词干处理

不合并词条。

要组合的词干

仅处理这些词条的词干：要将两个或更多词条的词干处理为同一词条。

处理所有词条的词干

处理所有词条的词干。

注意：“词干处理”选项的使用还影响已添加到词条列表中的短语。在短语中的词条已进行词干处理后进行短语标识。例如，“dogs bark”和“dog barks”都匹配指定的短语“dog· bark·”。

标记化

（仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”时才可用。）指定将文本解析为词条或标记的方法。提供以下标记化选项：

Regex

使用默认的一组内置正则表达式来解析文本。若您要添加、删除或编辑用于解析文本的这组正则表达式，请选择定制 Regex 选项。请参见在“正则表达式编辑器”中定制 Regex。

基本单词

基于一组通常分隔单词的字符将文本解析为单词。这些字符包括空格、制表符、换行符和大多数标点符号。若您希望将数字解析为供分析的词条，请选择将数字视为单词选项。若您不选择该选项，将在标记化步骤中忽略仅包含数字的分隔符之间的文本片段。

提示：您可以在使用“基本单词”标记化方法的文本分析器报表中使用显示选项 > 显示分隔符选项来查看这组默认分隔符。

定制 Regex

（仅适用于 Regex 标记化方法。）您可以使用“文本分析器正则表达式编辑器”窗口修改 Regex 设置。使用该选项来处理非传统单词。示例包括电话号码或由字符和数字组成的单词。除非默认 Regex 方法无法给出您所需的结果，否则不建议使用“定制 Regex”选项。当您的文本包含默认 Regex 方法无法识别的结构时就会出现这种情况。请参见在“正则表达式编辑器”中定制 Regex。

将数字视为单词

（仅适用于“基本单词”标记化方法。）允许数字标记化为分析中的词条。选择该选项时，对于包含数字位的词条，忽略“每个单词的最小字符数”设置。

在启动窗口上点击确定后，若您在启动窗口中选择了定制 Regex，将显示“文本分析器正则表达式编辑器”窗口。否则，显示文本分析器报表。

注意：对文本输入的处理不区分大小写。在标记化和所有分析步骤之前，所有文本都将在内部转换为小写形式。该转换在文本分析器输出中影响正则表达式的处理和词条的聚合。

需要更多信息？有问题？从 JMP 用户社区得到解答 (community.jmp.com).