使用 JMP > 输入和编辑数据 > 重构数据 > 在数据表列中生成分箱公式
发布日期: 11/15/2021

在数据表列中生成分箱公式

您可以使用“生成分箱公式”选项将数据分布到箱中。选择要划分到多个箱中的一个或多个列,然后选择列 > 实用工具 > 生成分箱公式。将显示箱的直方图和“值标签”图例,以及包含用于定义割点的选项的红色小三角菜单。有几种方法可以添加割点、删除割点和调整箱大小。

在直方图中右击可添加或删除割点。

点击并拖动直方图中的垂直线条可调整箱大小。

编辑割点值标签旁边的框可编辑切割点值并调整箱大小。

使用“值标签”图例上方的添加 Image shown here 和删除 Image shown here 按钮添加和删除行,这等同于添加和删除割点。

使用撤销 Image shown here 和恢复 Image shown here 按钮可撤销或恢复针对箱设置执行的操作。

有一个选项可以将割点的公式列添加到数据表中。

用于生成分箱公式的右击选项

在“生成分箱公式”窗口中右击直方图以选择以下选项:

添加割点

将割点线添加到位于所点击位置的直方图中。

删除割点

删除割点线。仅当右击现有割点后,该选项才可用。

显示计数

显示或隐藏直条上方的计数。

显示百分比

显示或隐藏直条上方的百分比。

子集

基于当前选择创建子集数据表。

填充模式

指定直方图中直条的填充模式。

用于割点的红色小三角选项

“割点”红色小三角包含以下选项:

使用等宽箱填充

指定开始值(剩余偏差)和箱宽。JMP 将填充该表,直到它超过可能的最大值。例如,若输入“剩余偏差=50”和“宽度=10”,并且最大数据值为 95,则将得到以下箱:50、60、70、80、90、100。

使用箱计数填充

指定开始值、结束值和箱计数。JMP 用箱计数等分开始值和结束值之间的间隔。若更改箱计数,则报告的箱宽将在窗口中自动更新。

使用百分位数填充

指定 1 到 50 之间的百分比。JMP 用该分位数除以数据范围。例如,若将百分位数指定为 20,则会得到五个等权重箱。

使用均值/标准差填充

指定要设置在数据均值加上均值的第一、第二或第三标准差(基于您在窗口中的选择)的箱割点。

使用 Jenks 自然断点填充

指定箱计数并创建箱割点,以使每个箱内的方差最小化,使各箱之间的方差最大化。

箱标签

指定是否用值标签代替数据值进行显示。

使用值标签

在定义箱的新公式列中显示标签而不是值。

使用范围标签

在标签中包含每个范围的下限值和上限值。

无标签

将下边缘值用作标签。

字符

应用“字符”数据类型。公式将生成标签。

请参见值标签

提示:大多数平台都建议使用值标签,其中很多平台都不支持范围标签。在“分类”平台中,您必须使用值标签。在某些轴上,您可能会发现范围标签可以更清晰地标识值,或者您可以尝试调整轴的偏移和宽度。

箱标签样式

指定一个预设值,用于定义“值标签”或“字符”输出在表中的外观。

通过每个箱的最低点和最高点定义“值标签”。格式为“低高”。

低至高

通过每个箱的最低点和最高点定义“值标签”。格式为“低至高”。

低, 高

通过每个箱的最低点和最高点定义“值标签”。格式为“低, 高”。

高-1(整数)

通过每个箱的最低点和最高点减 1 来定义“值标签”。格式为“低高-1”。

低至高-1(整数)

通过每个箱的最低点和最高点减 1 来定义“值标签”。格式为“低至高-1”。

[低, 高)(数学)

指定范围中包含下限值,而不包含上限值。例如,若您的范围为 [50,60),则 50 这个值将包含在箱内,而 60 这个值将不含在箱内。

下限

通过每个箱的最低点定义“值标签”。

中点值

通过每个箱的中点定义“值标签”。

整数序列

通过一个连续整数序列定义“值标签”。在“整数序列标签”窗口中定义起始整数。

大写字母

按字母顺序将“值标签”定义为大写字母。

小写字母

按字母顺序将“值标签”定义为小写字母。

定制

支持您输入定制“值标签”。

列格式

指定“值标签”的格式。默认情况下,应用列的格式。不过,您可能希望覆盖该设置(例如,将格式更改为“美元”)。若列格式类似于“最佳”之类的格式,但您确实希望您的箱不带小数,则该设置最为有用。您只需指定格式,而不必清除所有值标签。

直方图

指定计数或百分比是否显示在直条上方。

显示点

显示或隐藏直条下方的观测数据点。

重新调整轴

将坐标轴重置为原始尺度。

重新调用

使用您最近执行的分箱操作填充“生成分箱公式”窗口。

使所有列类似于 X

(仅当选定多列时才显示。)将对第一列 (X) 所做的选择应用到对话框中的其余列。

生成公式列

创建公式列并关闭该窗口。

提示:一旦创建公式列,您就可以通过右击列标题并选择编辑分箱公式来编辑该公式。这将重新打开“生成分箱公式”窗口。要更新分箱公式列,请编辑割点并点击更新列

关于生成分箱公式的示例

1. 选择帮助 > 样本数据库,然后打开 Big Class.jmp

2. 选择身高列。

3. 选择列 > 实用工具 > 生成分箱公式

您希望值范围显示为 X-X,所以请在“箱标签样式”中将范围设置为低 - 高

4. 点击“割点”红色小三角并选择使用等宽箱填充

5. 在出现的窗口中,将剩余偏差改为 -0.5。

提示:对于整数数据,将剩余偏差设置为 -0.5 有助于区分边缘处的值。在该示例中,一个箱的取值范围介于 59.5 到 64.5 之间,所以很明显 59 和 65 都不包含在该箱内。

6. 保持宽度设置为 5。

7. 点击确定

8. 保留“箱标签”设置为使用值标签,这样您就可以看到该箱的值范围。

图 4.39 已完成的分箱窗口 

Image shown here

9. 点击生成公式列

名为“身高”分箱的列添加至 Big Class.jmp 数据表。

10. 要查看如何计算公式,请右击“身高”分箱列并选择公式

图 4.40 公式 

Image shown here

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).