注意:若需要对多个列中的相似值重新编码,请使用列 > 标准化特性中的“重新编码”选项。请参见标准化特性
1.
选择帮助 > 样本数据库,然后打开 Companies.jmp
3.
选择列 > 重新编码
4.
在”重新编码“窗口的新值框中输入所需的值。对于本例,在“Computer”行中输入“Technical”,在“Pharmaceutical”行中输入“Drug”。
图 4.40 “重新编码” 窗口
注意: 
若在数据类型为“数值型”的列中输入非数值型值,系统将提示您将数据类型转换为“字符型”。点击可转换列并显示新值。点击可保留列为“数值型”并显示缺失值。
数据完成重新编码后,点击完成可查看以下选项:
选定多个值时将变为可用。点击分组可使突出显示的值分到同一组中。若您在分组前编辑过值,则编辑过的值会成为“新值”列中的组代表。否则,出现次数最多的值会成为组代表。
指定拆分项所在的点。例如,若按逗号匹配,对于数据“first, second, third”,第一次出现匹配的是“second, third”。最后一次出现匹配的是“third”。
右击选定值可选择不同的分组值或组代表。分组至命令显示数据表中出现次数最多的“旧值”。若新值和旧值不同,还会连同显示其相应的新值。该列表显示前 8 个可能的组代表。
当突出显示两个值时,选择交换新值可使第一个值的新值采纳第二个值的新值,反之亦然。
右击组中的单个值并选择成为代表可使选定的值成为新值。
选择以下分组类似值命令可增加分组准确度:
1.
选择帮助 > 样本数据库,然后打开 Candy Bars.jmp
2.
选择名称列。
3.
选择列 > 重新编码
5.
选择最大字符差异选项并键入“6”。
6.
点击确定
图 4.41 按字符差异分组
在本例中,分组值之间不存在超过 6 个字符的差异。显示在新值列中的值代表重新编码数据表中的分组值。
7.
右击 Almond Roca 并选择成为代表,以更改新值来代表组内的不同值
图 4.42 成为代表
8.
点击重新编码,用表中的重新编码数据代替原始数据
1.
选择帮助 > 样本数据库,然后打开 Candy Bars.jmp
2.
选择名称列。
3.
选择列 > 重新编码
5.
选择差异比选项并键入“.5”。
6.
点击确定
图 4.43 按差异比分组
7.
从红色小三角菜单中,选择重新开始以将重新编码的数据保存至数据表的新列中。
Aircraft Incidents.jmp 样本数据表包含用逗号分隔城市和州名称的一列。您可以依据逗号拆分该列中的值,只用州名对该列重新编码。
1.
选择帮助 > 样本数据库并打开 Aircraft Incidents.jmp
2.
选择位置列并选择列 > 重新编码
4.
选择文本并在拆分文本旁边键入逗号。
5.
请不要更改默认的第一次出现设置。在这些数据中,州是在逗号之后第一次出现的数据。
6.
选择之后的文本仅使用州名对该列重新编码。
7.
请不要更改默认的若没有匹配项,则保留文本设置。您不想删除不匹配的文本。
8.
点击确定
图 4.44 重新编码的城市,州名
2.
从列表中选择公式列
3.
点击重新编码
在本例中,性别列已重新编码。
图 4.45 重新编码列
在本例中,您想要对性别列重新编码。
图 4.46 对“性别”列重新编码
7.
右击性别列并选择替换所有出现的选定子表达式
sex(性别)的两种出现情况将被 gender(性别)替换。
图 4.47 替换所有出现情况