“文本分析器”平台概述

非结构化文本数据很常见。例如，它们可能来自调查中的自由回答字段、产品评论或事故报告。通过“文本分析器”平台，您可以探索非结构化文本以更好地了解它的含义。文本分析通常是一个迭代过程，因此您可能要交替进行词条列表的调理和分析。

审校词条列表

文本分析使用一些独特的术语。一个词条或标记是最小的文本片段，类似于句子中的单词。但是，您可以使用很多方式来定义词条，包括使用正则表达式；将文本拆分为词条的过程称为标记化。

• 短语是词条的简短集合；平台提供管理短语的选项，短语的指定方式可以与词条相同，也可以有自己独特的方式。

• 文档是指单词的集合；在 JMP 数据表中，文本列的每行中的非结构化文本对应于一个文档。

• 语料库是指文档的集合。

通常希望从分析中排除一些常见单词。这些被排除的单词称为停止词。平台提供停止词的默认列表，但是您也可以将特定单词添加为停止词。尽管停止词不能是词条，但是可以在短语中使用它们。

您还可以对词条重新编码；这对将同义词合并为一个普通词条很有用。

词干处理是指通过删除不同的结尾部分，使用相同开头（词干）合并单词的过程。这样“jump”、“jumped”和“jumping”都将视为词条“jump”。词干处理步骤类似于在 Snowball 字符串处理语言中使用的步骤。对短语进行词干处理时，将短语中的每个单词作为独立的词条来进行词干处理。

分析词条列表

“文本分析器”平台中的文本分析使用词袋方法。与短语形成过程不同，词条的顺序这里被忽略。该分析基于词条计数。

当您使用正则表达式、停止词、重新编码和词干处理审校词条列表后，可以对审校后的词条列表进行分析。平台中的分析选项基于文档词条矩阵 (DTM)。DTM 中的每行对应于一个文档（JMP 数据表的文本列中的一个单元格）。DTM 中的每列对应于审校后的词条列表中的一个词条。该方法实施词袋方法，因为它忽略单词顺序。在它最简单的形式中，DTM 的每个单元格包含该列的词条在该行的文档中的频数（出现次数）。还有其他很多针对 DTM 的权重方案；相关信息请参见保存选项。

Image shown here 平台中可用的分析选项首先对文档词条矩阵执行奇异值分解 (SVD)。这可以大大减少表示数据中的词条信息所需的列数。有关奇异值分解的详细信息，请参见《多元方法》中的统计详细信息。“层次聚类”选项可用于对词条和文档聚类。使用这些选项，您可以将类似词条或文档分在一组。

平台工作流

使用“文本分析器”平台的预期步骤如下所示：

1. 指定标记化的方法（内置或定制的正则表达式）。

2. 使用报表指定其他停止词，将短语添加到词条列表，执行词条的重新编码以及指定词干处理规则的例外情况。

3. 指定词干处理的首选项。

4. 使用单词和短语计数、SVD 和聚类方法来确定重要词条和短语。

注意： Image shown here SVD 和聚类选项仅在 JMP Pro 中可用。

5. 保存结果以供进一步分析：词条表、DTM、奇异向量或其他结果。

注意： Image shown here 保存奇异向量的选项仅在 JMP Pro 中可用。

6. 保存“短语”、“重新编码”和“停止词”属性，以在进一步分析类似文本数据中使用。

需要更多信息？有问题？从 JMP 用户社区得到解答 (community.jmp.com).