“文本分析器”平台的示例

在该示例中，您要探索有关宠物的调查的文本响应。

1. 选择帮助 > 样本数据库，然后打开 Pet Survey.jmp。

2. 选择分析 > 文本分析器。

3. 选择调查回答并点击文本列。

4. 从“语言”列表中，选择简体中文。

5. 点击确定。

图 12.2 初始文本分析器报表的示例

Image shown here

您一眼可看到 194 个文档中有 372 个独特词条。总共有 1921 个标记化词条。最常见的词条是“cat”，它出现了 55 次。

6. 点击“调查回答的文本分析器”旁边的红色小三角并选择词条选项 > 词干处理 > 处理所有词条的词干。

7. 在“短语列表”表中，选择 cat food 和 dog food，右击选定内容，然后选择添加短语。

词条 cat food 和 dog food 包含在词条列表中。

8. 在词条列表中向下滚动，找到 cat 和 dog food 条目。

您可以看到每个短语出现了四次。

图 12.3 修改和滚动后的词条列表

Image shown here

在短语列表中，cat food 和 dog food 是灰色的，因为它们现在在本地被视为该文本分析器报表中的词条。

Image shown here 本例的其余步骤只能在 JMP Pro 中完成。

9. Image shown here 点击“调查回答的文本分析器”旁边的红色小三角并选择潜在语义分析，SVD。

10. Image shown here 点击确定以接受默认值。

两个 SVD 图显示在报表中。左侧的图显示文档空间中的前两个奇异向量。右侧的图显示词条空间中的前两个奇异向量。

图 12.4 SVD 图

Image shown here

11. Image shown here 选择左侧 SVD 图中的三个最右侧的点。

这三个点表示与其他点不聚类在一起的调查回答。为了进一步调查该聚类，您阅读了这些响应的文本。

12. Image shown here 点击左侧 SVD 图上方的显示文本按钮。

图 12.5 选定文档的文本

Image shown here

显示一个窗口，它包含选定点所表示的三个文档的文本。这些调查回答是类似的，它们都具有“funny”、“cat”和“video”的某些组合。这些文档与其余文档相比，其第一个奇异向量的正值更大。这些较大值指示在该维上它们与其余文档不同。

奇异向量维的进一步调查可能导致解释这些维表示什么。例如，图的最右侧的很多文档是有关 cat 的响应。在最左边，很多响应是关于 dog 的。因此，第一个奇异向量表示基于响应是关于 cat 还是 dog 的差异。

需要更多信息？有问题？从 JMP 用户社区得到解答 (community.jmp.com).