JMP 13.2 联机文档
发现 JMP
使用 JMP
基本分析
基本绘图
刻画器指南
实验设计指南
拟合线性模型
预测和专业建模
多元方法
质量和过程方法
可靠性和生存方法
消费者研究
Scripting Guide
JSL Syntax Reference
基本分析
•
文本分析器
•
“文本分析器”平台概述
• 文本处理步骤
上一个
•
下一个
文本处理步骤
分三个阶段处理文本:标记化、短语化和词条化。
标记化阶段
标记化阶段执行以下操作:
1.
将文本转换为小写形式。
2.
应用标记化方法(“基本单词”或“Regex”)来将字符分组为标记。
3.
根据指定的重新编码定义对标记重新编码。请注意在词干处理前进行重新编码。
短语化阶段
短语化阶段收集在语料库(文档集合)中出现的短语并允许您指定将这些短语视为词条。短语不能以停止词开头或结尾,但是可以包含停止词。
词条化阶段
词条化阶段使用从以前阶段得到的标记和短语创建词条列表。
对于每个标记,词条化阶段执行以下操作:
1.
检查是否满足在启动窗口中指定的最小和最大长度要求。仅包含数字的标记将从该操作中排除。
2.
检查标记是否可以成为词条;按“基本单词”标记化方法解析的标记必须至少包含一个字母字符或 Unicode 字符。仅包含数字的标记将从该操作中排除。“Regex”标记化方法使用正则表达式来确定哪些字符是标记的一部分。
3.
检查确定该标记不是停止词。
4.
应用词干处理和词干例外情况。
对于您添加的每个短语,词条化阶段执行以下操作:
1.
将短语添加到词条列表。短语应将词干处理应用到已在词条列表中进行词干处理的短语中的每个单词。在词条列表中合并具有不同原始标记但有相同词干的短语。
2.
删除在短语中出现的标记词条实例。