该帮助的版本不再更新,请参见https://www.jmp.com/support/help/zh-cn/15.2 获取最新的版本.


当您选择定制 Regex 选项时,显示“文本分析器正则表达式编辑器”。在该窗口中,使用各种内置正则表达式(如电话号码、时间或货币值)解析文本文档。您还可以创建自己的正则表达式定义。
图 12.7 文本分析器正则表达式编辑器
点击上一行下一行按钮来使用您自己的数据文本填充脚本编辑器框。这使您可以了解给定的文本数据行是如何解析的。
点击保存至列按钮以将新列保存到包含正则表达式标记化结果的数据表。有关指定正则表达式结果的详细信息,请参见编辑正则表达式
注意:保存至列按钮仅使用正则表达式匹配文本。不使用以下设置来修改正则表达式的输出:停止词、重新编码、词干处理、短语或每个单词的最小字符数和最大字符数。
在列表中选择一个或多个正则表达式,然后点击确定添加要在标记化中使用的选定正则表达式。使用删除选定项按钮从 Regex 逻辑库中删除一个或多个定制正则表达式。每个用户的 Regex 逻辑库作为 JSL 文件存储在名为 TextExplorer 的目录中。该目录的位置基于您计算机的操作系统,如下所示:
Windows:"C:/Users/<用户名>/AppData/Roaming/SAS/JMP/TextExplorer/"
Macintosh:"/Users/<用户名>/Library/Application Support/JMP/TextExplorer/"
3.
点击确定
使用单词分隔符列表按钮可以指定在标记化过程中单词之间出现的字符列表。字间字符不能作为单词开头,但是若某个正则表达式允许,它们可以出现在某个单词内部。点击该按钮时,您可以在显示的窗口中的列表中添加或删除字符。默认情况下,列表中的唯一字符为空格字符。在“分隔符”窗口中,点击重置按钮可以撤销对分隔符列表的所有修改。对分隔符列表的修改仅应用到当前正则表达式标记化。
提示: 
点击保存至列按钮以保存到数据表的一个新列,其中包含正则表达式标记化的结果。新列是一个字符列,其名称与在“文本分析器”启动窗口中指定的文本列名称相同;同时追加一个数字到该名称以便列名称是唯一的。
警告:仅当您点击确定并且存在定制正则表达式时,才保存定制 Regex 逻辑库。最新保存的正则表达式将在下次可用。使用唯一名称来在 Regex 逻辑库中保留更多正则表达式。要确保某个正则表达式在以后可用,您可以在“文本分析器报表”窗口中保存一个脚本。