在该示例中,您要探索有关宠物的调查的文本响应。
1. 选择帮助 > 样本数据库,然后打开 Pet Survey.jmp。
2. 选择分析 > 文本分析器。
3. 选择调查回答并点击文本列。
4. 从“语言”列表中,选择简体中文。
5. 点击确定。
图 12.2 初始文本分析器报表的示例
您一眼可看到 194 个文档中有 372 个独特词条。总共有 1921 个标记化词条。最常见的词条是“cat”,它出现了 55 次。
6. 点击“调查回答的文本分析器”旁边的红色小三角并选择词条选项 > 词干处理 > 处理所有词条的词干。
7. 在“短语列表”表中,选择 cat food 和 dog food,右击选定内容,然后选择添加短语。
词条 cat food 和 dog food 包含在词条列表中。
8. 在词条列表中向下滚动,找到 cat 和 dog food 条目。
您可以看到每个短语出现了四次。
图 12.3 修改和滚动后的词条列表
在短语列表中,cat food 和 dog food 是灰色的,因为它们现在在本地被视为该文本分析器报表中的词条。
本例的其余步骤只能在 JMP Pro 中完成。
9. 点击“调查回答的文本分析器”旁边的红色小三角并选择潜在语义分析,SVD。
10. 点击确定以接受默认值。
两个 SVD 图显示在报表中。左侧的图显示文档空间中的前两个奇异向量。右侧的图显示词条空间中的前两个奇异向量。
图 12.4 SVD 图
11. 选择左侧 SVD 图中的三个最右侧的点。
这三个点表示与其他点不聚类在一起的调查回答。为了进一步调查该聚类,您阅读了这些响应的文本。
12. 点击左侧 SVD 图上方的显示文本按钮。
图 12.5 选定文档的文本
显示一个窗口,它包含选定点所表示的三个文档的文本。这些调查回答是类似的,它们都具有“funny”、“cat”和“video”的某些组合。这些文档与其余文档相比,其第一个奇异向量的正值更大。这些较大值指示在该维上它们与其余文档不同。
奇异向量维的进一步调查可能导致解释这些维表示什么。例如,图的最右侧的很多文档是有关 cat 的响应。在最左边,很多响应是关于 dog 的。因此,第一个奇异向量表示基于响应是关于 cat 还是 dog 的差异。