该示例取自美国国家运输安全委员会发布的飞机事故报告,其中列出美国 2001 年发生的事故。您想探索一些文本,这些文本包含了对事故原因结果的描述。您还想在事故报告集合中找到主题。
1. 选择帮助 > 样本数据库,然后打开 Aircraft Incidents.jmp。
2. 选择行 > 按列设定颜色或标记。
3. 从“列”列表中选择严重,然后点击确定。
将包含涉及死亡事故的行设定为红色。
4. 选择分析 > 文本分析器。
5. 从“选择列”列表中选择报告原因,然后点击文本列。
6. 从“语言”列表中,选择简体中文。
7. 从“词干处理”列表中,选择处理所有词条的词干。
8. 从“标记化”列表中,选择基本单词。
9. 点击确定。
图 12.14 报告原因的“文本分析器”报表
从报表中,您看到有几乎 51,000 个标记和大约 1,900 个独特词条。
10. 右击“词条列表”中的 pilot 并选择选择行。
从数据表中的选定行数,您可以看到某种形式的“pilot”一词出现在超过 1,300 起事故报告中。
11. 右击 pilot,然后选择添加停止词。
由于某种形式的“pilot”一词出现的频率高于其他词条,这些词条提供不了很多信息来区分文档。所以,以 pilot 为词干的所有词条都添加至停止词列表。
本例的其余步骤只能在 JMP Pro 中完成。
12. 点击“报告原因的文本分析器”旁边的红色小三角并选择潜在语义分析,SVD。
这是迈向执行 SVD 旋转的主题分析的第一个分析步骤。
13. 在“规格”窗口中,为“最小词条频数”键入 50。
因为大约有 51,000 个标记,该频数等价于至少代表所有词条的 0.1% 的一个词条。
14. 点击确定。
图 12.15 报告原因的 SVD 图
严重和非严重事故的文档 SVD 图区别不大。
15. 点击“SVD 中心化和统一尺度的 TF IDF”旁边的红色小三角并选择主题分析,旋转 SVD。
您想查找构成主题的词条组。
16. 为“主题数”键入 5。
17. 点击确定。
图 12.16 按报告原因主题划分的前几位载荷
具有最高载荷的每个主题的词条支持您解释该主题是否捕获了事故报告中的主题。
例如,主题 1 对于动力、失去和发动机具有高载荷,这表示发动机失去动力的主题是事故原因。这对应于短语“发动机动力失去”在一组事故报告中出现了 273 次。
根据主题 2 中具有高载荷的单词,可以将它描述为与涉及黑暗或低海拔的事故有关。
在这个文本分析阶段,您对于如何进行分析有很多选择。文本分析是一个迭代过程,因此您可能通过添加停止词或指定短语,使用主题信息进一步审校您的词条列表。您可能保存加权的文档词条矩阵,将 SVD 或旋转 SVD 中的向量保存为数据表中的数值列,然后在其他 JMP 分析平台中使用它们。在其他平台中使用这些列时,还可以包括数据表中的其他列以进行深入分析。