您可以使用“生成分箱公式”选项将数据分布到箱中。选择要划分到多个箱中的一个或多个列,然后选择列 > 实用工具 > 生成分箱公式。将显示箱的直方图和“值标签”图例,以及包含用于定义割点的选项的红色小三角菜单。有几种方法可以添加割点、删除割点和调整箱大小。
• 在直方图中右击可添加或删除割点。
• 点击并拖动直方图中的垂直线条可调整箱大小。
• 编辑割点值标签旁边的框可编辑切割点值并调整箱大小。
• 使用“值标签”图例上方的添加 和删除 按钮添加和删除行,这等同于添加和删除割点。
• 使用撤销 和恢复 按钮可撤销或恢复针对箱设置执行的操作。
有一个选项可以将割点的公式列添加到数据表中。
在“生成分箱公式”窗口中右击直方图以选择以下选项:
添加割点
将割点线添加到位于所点击位置的直方图中。
删除割点
删除割点线。仅当右击现有割点后,该选项才可用。
显示计数
显示或隐藏直条上方的计数。
显示百分比
显示或隐藏直条上方的百分比。
子集
基于当前选择创建子集数据表。
填充模式
指定直方图中直条的填充模式。
“割点”红色小三角包含以下选项:
使用等宽箱填充
指定开始值(剩余偏差)和箱宽。JMP 将填充该表,直到它超过可能的最大值。例如,若输入“剩余偏差=50”和“宽度=10”,并且最大数据值为 95,则将得到以下箱:50、60、70、80、90、100。
使用箱计数填充
指定开始值、结束值和箱计数。JMP 用箱计数等分开始值和结束值之间的间隔。若更改箱计数,则报告的箱宽将在窗口中自动更新。
使用百分位数填充
指定 1 到 50 之间的百分比。JMP 用该分位数除以数据范围。例如,若将百分位数指定为 20,则会得到五个等权重箱。
使用均值/标准差填充
指定要设置在数据均值加上均值的第一、第二或第三标准差(基于您在窗口中的选择)的箱割点。
使用 Jenks 自然断点填充
指定箱计数并创建箱割点,以使每个箱内的方差最小化,使各箱之间的方差最大化。
箱标签
指定是否用值标签代替数据值进行显示。
使用值标签
在定义箱的新公式列中显示标签而不是值。
使用范围标签
在标签中包含每个范围的下限值和上限值。
无标签
将下边缘值用作标签。
字符
应用“字符”数据类型。公式将生成标签。
请参见“值标签”。
提示:大多数平台都建议使用值标签,其中很多平台都不支持范围标签。在“分类”平台中,您必须使用值标签。在某些轴上,您可能会发现范围标签可以更清晰地标识值,或者您可以尝试调整轴的偏移和宽度。
箱标签样式
指定一个预设值,用于定义“值标签”或“字符”输出在表中的外观。
低−高
通过每个箱的最低点和最高点定义“值标签”。格式为“低−高”。
低至高
通过每个箱的最低点和最高点定义“值标签”。格式为“低至高”。
低, 高
通过每个箱的最低点和最高点定义“值标签”。格式为“低, 高”。
低−高-1(整数)
通过每个箱的最低点和最高点减 1 来定义“值标签”。格式为“低−高-1”。
低至高-1(整数)
通过每个箱的最低点和最高点减 1 来定义“值标签”。格式为“低至高-1”。
[低, 高)(数学)
指定范围中包含下限值,而不包含上限值。例如,若您的范围为 [50,60),则 50 这个值将包含在箱内,而 60 这个值将不含在箱内。
下限
通过每个箱的最低点定义“值标签”。
中点值
通过每个箱的中点定义“值标签”。
整数序列
通过一个连续整数序列定义“值标签”。在“整数序列标签”窗口中定义起始整数。
大写字母
按字母顺序将“值标签”定义为大写字母。
小写字母
按字母顺序将“值标签”定义为小写字母。
定制
支持您输入定制“值标签”。
列格式
指定“值标签”的格式。默认情况下,应用列的格式。不过,您可能希望覆盖该设置(例如,将格式更改为“美元”)。若列格式类似于“最佳”之类的格式,但您确实希望您的箱不带小数,则该设置最为有用。您只需指定格式,而不必清除所有值标签。
直方图
指定计数或百分比是否显示在直条上方。
显示点
显示或隐藏直条下方的观测数据点。
重新调整轴
将坐标轴重置为原始尺度。
重新调用
使用您最近执行的分箱操作填充“生成分箱公式”窗口。
使所有列类似于 X
(仅当选定多列时才显示。)将对第一列 (X) 所做的选择应用到对话框中的其余列。
生成公式列
创建公式列并关闭该窗口。
提示:一旦创建公式列,您就可以通过右击列标题并选择编辑分箱公式来编辑该公式。这将重新打开“生成分箱公式”窗口。要更新分箱公式列,请编辑割点并点击更新列。
1. 选择帮助 > 样本数据文件夹,然后打开 Big Class.jmp。
2. 选择身高列。
3. 选择列 > 实用工具 > 生成分箱公式。
您希望值范围显示为 X-X,所以请在“箱标签样式”中将范围设置为低 - 高。
4. 点击“割点”红色小三角并选择使用等宽箱填充。
5. 在出现的窗口中,将剩余偏差改为 -0.5。
提示:对于整数数据,将剩余偏差设置为 -0.5 有助于区分边缘处的值。在该示例中,一个箱的取值范围介于 59.5 到 64.5 之间,所以很明显 59 和 65 都不包含在该箱内。
6. 保持宽度设置为 5。
7. 点击确定。
8. 保留“箱标签”设置为使用值标签,这样您就可以看到该箱的值范围。
图 4.39 已完成的分箱窗口
9. 点击生成公式列。
名为“身高”分箱的列添加至 Big Class.jmp 数据表。
10. 要查看如何计算公式,请右击“身高”分箱列并选择公式。
图 4.40 公式