基本分析 > 文本分析器 > “文本分析器”平台的示例
发布日期: 08/07/2020

“文本分析器”平台的示例

在该示例中,您要探索有关宠物的调查的文本响应。

1. 选择帮助 > 样本数据库,然后打开 Pet Survey.jmp

2. 选择分析 > 文本分析器

3. 选择调查回答并点击文本列

4. 从“语言”列表中,选择简体中文

5. 点击确定

初始文本分析器报表的示例 

您一眼可看到 194 个文档中有 372 个独特词条。总共有 1921 个标记化词条。最常见的词条是“cat”,它出现了 55 次。

6. 点击“调查回答的文本分析器”旁边的红色小三角并选择词条选项 > 词干处理 > 处理所有词条的词干

7. 在“短语列表”表中,选择 cat fooddog food,右击选定内容,然后选择添加短语

词条 cat food 和 dog food 包含在词条列表中。

8. 在词条列表中向下滚动,找到 cat 和 dog food 条目。

您可以看到每个短语出现了四次。

修改和滚动后的词条列表 

在短语列表中,cat food 和 dog food 是灰色的,因为它们现在在本地被视为该文本分析器报表中的词条。

本例的其余步骤只能在 JMP Pro 中完成。

9. 点击“调查回答的文本分析器”旁边的红色小三角并选择潜在语义分析,SVD

10. 点击确定以接受默认值。

两个 SVD 图显示在报表中。左侧的图显示文档空间中的前两个奇异向量。右侧的图显示词条空间中的前两个奇异向量。

SVD 图 

11. 选择左侧 SVD 图中的三个最右侧的点。

这三个点表示与其他点不聚类在一起的调查回答。为了进一步调查该聚类,您阅读了这些响应的文本。

12. 点击左侧 SVD 图上方的显示文本按钮。

选定文档的文本 

显示一个窗口,它包含选定点所表示的三个文档的文本。这些调查回答是类似的,它们都具有“funny”、“cat”和“video”的某些组合。这些文档与其余文档相比,其第一个奇异向量的正值更大。这些较大值指示在该维上它们与其余文档不同。

奇异向量维的进一步调查可能导致解释这些维表示什么。例如,图的最右侧的很多文档是有关 cat 的响应。在最左边,很多响应是关于 dog 的。因此,第一个奇异向量表示基于响应是关于 cat 还是 dog 的差异。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).