当您选择定制 Regex 选项时,显示“文本分析器正则表达式编辑器”。在该窗口中,使用各种内置正则表达式(如电话号码、时间或货币值)解析文本文档。您还可以创建自己的正则表达式定义。
图 12.7 文本分析器正则表达式编辑器
•
|
注意:保存至列按钮仅使用正则表达式匹配文本。不使用以下设置来修改正则表达式的输出:停止词、重新编码、词干处理、短语或每个单词的最小字符数和最大字符数。
在列表中选择一个或多个正则表达式,然后点击确定添加要在标记化中使用的选定正则表达式。使用删除选定项按钮从 Regex 逻辑库中删除一个或多个定制正则表达式。每个用户的 Regex 逻辑库作为 JSL 文件存储在名为 TextExplorer 的目录中。该目录的位置基于您计算机的操作系统,如下所示:
•
|
Windows:"C:/Users/<用户名>/AppData/Roaming/SAS/JMP/TextExplorer/"
|
•
|
Macintosh:"/Users/<用户名>/Library/Application Support/JMP/TextExplorer/"
|
1.
|
3.
|
点击确定。
|
提示:编辑 Regex 定义字段时,使“日志”窗口打开并可见很有帮助。一些错误消息仅在“日志”窗口中显示。要打开“日志”窗口,请选择查看 > 日志。有很多 Internet 资源可用于排查正则表达式问题,如 https://regexr.com/ 。
使用单词分隔符列表按钮可以指定在标记化过程中单词之间出现的字符列表。字间字符不能作为单词开头,但是若某个正则表达式允许,它们可以出现在某个单词内部。点击该按钮时,您可以在显示的窗口中的列表中添加或删除字符。默认情况下,列表中的唯一字符为空格字符。在“分隔符”窗口中,点击重置按钮可以撤销对分隔符列表的所有修改。对分隔符列表的修改仅应用到当前正则表达式标记化。
‒
|
点击保存至列按钮以保存到数据表的一个新列,其中包含正则表达式标记化的结果。新列是一个字符列,其名称与在“文本分析器”启动窗口中指定的文本列名称相同;同时追加一个数字到该名称以便列名称是唯一的。
在“文本分析器正则表达式编辑器”窗口中点击确定后,发生以下事件:
警告:仅当您点击确定并且存在定制正则表达式时,才保存定制 Regex 逻辑库。最新保存的正则表达式将在下次可用。使用唯一名称来在 Regex 逻辑库中保留更多正则表达式。要确保某个正则表达式在以后可用,您可以在“文本分析器报表”窗口中保存一个脚本。