通过“文本分析器”平台,您可以探索非结构化文本以更好地了解它的含义。非结构化文本数据很常见。例如,它们可能来自调查中的自由回答字段、产品评论或事故报告。
文本分析通常是一个迭代过程,因此您可能要交替进行词条列表的调理和分析。
文本分析使用一些独特的术语。一个词条或标记是最小的文本片段,类似于句子中的单词。但是,您可以使用很多方式来定义词条,包括使用正则表达式;将文本拆分为词条的过程称为标记化。
• 短语是词条的简短集合;平台提供管理短语的选项,短语的指定方式可以与词条相同,也可以有自己独特的方式。
• 文档是指单词的集合;在 JMP 数据表中,文本列的每行中的非结构化文本对应于一个文档。
• 语料库是指文档的集合。
通常希望从分析中排除一些常见单词。这些被排除的单词称为停止词。平台提供停止词的默认列表,但是您也可以将特定单词添加为停止词。尽管停止词不能是词条,但是可以在短语中使用它们。
您还可以对词条重新编码;这对将同义词合并为一个普通词条很有用。
词干处理是指通过删除不同的结尾部分,使用相同开头(词干)合并单词的过程。这样“jump”、“jumped”和“jumping”都将视为词条“jump”。词干处理步骤类似于在 Snowball 字符串处理语言中使用的步骤。对短语进行词干处理时,将短语中的每个单词作为独立的词条来进行词干处理。
“文本分析器”平台中的文本分析使用词袋方法。与短语形成过程不同,词条的顺序这里被忽略。该分析基于词条计数。
当您使用正则表达式、停止词、重新编码和词干处理审校词条列表后,可以对审校后的词条列表进行分析。平台中的分析选项基于文档词条矩阵 (DTM)。DTM 中的每行对应于一个文档(JMP 数据表的文本列中的一个单元格)。DTM 中的每列对应于审校后的词条列表中的一个词条。该方法实施词袋方法,因为它忽略单词顺序。在它最简单的形式中,DTM 的每个单元格包含该列的词条在该行的文档中的频数(出现次数)。还有其他很多针对 DTM 的权重方案;相关信息请参见保存选项。
平台中可用的分析选项首先对文档词条矩阵执行奇异值分解 (SVD)。这可以大大减少表示数据中的词条信息所需的列数。有关奇异值分解的详细信息,请参见《多元方法》中的统计详细信息。“层次聚类”选项可用于对词条和文档聚类。使用这些选项,您可以将类似词条或文档分在一组。
以下是使用“文本分析器”平台的预期步骤:
1. 指定标记化的方法(内置或定制的正则表达式)。
2. 使用报表指定其他停止词,将短语添加到词条列表,执行词条的重新编码以及指定词干处理规则的例外情况。
3. 指定词干处理的首选项。
4. 使用单词和短语计数、SVD 和聚类方法来确定重要词条和短语。
注意:SVD 和聚类选项仅在 JMP Pro 中可用。
5. 保存结果以供进一步分析:词条表、DTM、奇异向量或其他结果。
注意:保存奇异向量的选项仅在 JMP Pro 中可用。
6. 保存“短语”、“重新编码”和“停止词”属性,以在进一步分析类似文本数据中使用。