分三个阶段处理文本:标记化、短语化和词条化。
标记化阶段执行以下操作:
1. 将文本转换为小写形式。
2. 应用标记化方法(“基本单词”或“Regex”)来将字符分组为标记。
3. 根据指定的重新编码定义对标记重新编码。请注意在词干处理前进行重新编码。
短语化阶段收集在语料库(文档集合)中出现的短语并允许您指定将这些短语视为词条。短语不能以停止词开头或结尾,但是可以包含停止词。
词条化阶段使用从以前阶段得到的标记和短语创建词条列表。
对于每个标记,词条化阶段执行以下操作:
1. 检查是否满足在启动窗口中指定的最小和最大长度要求。仅包含数字的标记将从该操作中排除。
2. 检查标记是否可以成为词条;按“基本单词”标记化方法解析的标记必须至少包含一个字母字符或 Unicode 字符。仅包含数字的标记将从该操作中排除。“Regex”标记化方法使用正则表达式来确定哪些字符是标记的一部分。
3. 检查确定该标记不是停止词。
4. 应用词干处理和词干例外情况。
对于您添加的每个短语,词条化阶段执行以下操作:
1. 将短语添加到词条列表。短语应将词干处理应用到已在词条列表中进行词干处理的短语中的每个单词。在词条列表中合并具有不同原始标记但有相同词干的短语。
2. 删除在短语中出现的标记词条实例。