以下属性控制列在平台中的使用方式:
• 分布
• 时间频率
• 地图角色
• 超类别
• 多重响应
• 收益矩阵
• 信息性缺失
对于包含连续数值数据的列,请使用“分布”属性选择要对列拟合的分布类型。该分布用在“分布”平台中,在特定条件下也用在“过程能力”平台中。请参见分布和过程能力分布。
为列获取“分布”报表时(通过选择分析 > 分布),JMP 会使用指定的分布自动估计拟合。表示拟合分布的曲线叠加在直方图上。
若同时设置“分布”属性和“规格限”属性,则“分布”平台将基于在“分布”列属性中指定的分布生成“能力分析”报表。
注意:在旧的数据表中,可能已将“能力分析”列属性分配给某列以指定规格限。我们建议您改用“规格限”属性。
若分析的列不包含使用“过程能力”平台的“过程能力分布”属性,则在“分布”列属性中指定的分布将在“过程能力”平台中生成非正态拟合:
• 若在“分布”属性中指定的分布在“过程能力”平台中受支持,则“过程能力”平台将使用指定的分布。
• 若在“分布”属性中指定的分布在“过程能力”平台中不受支持,则“过程能力”平台将使用 Johnson 拟合。
若同时为给定的列保存了“分布”和“过程能力分布”列属性,则这些属性将按以下方式操作:
• 在“分布”列属性中指定的分布用在“分布”平台中。
• 在“过程能力分布”列属性中指定的分布用在“过程能力”平台中。
使用“时间序列”平台时,您可以为数据指定“时间频率”属性。“时间频率”属性指定报告数据的频率(如每年、每季度、每月等)。指定时间频率允许 JMP 将闰年和闰日等因素考虑在内。若未指定频率,数据将被视为等间距数值数据。
若您创建的数据表中包含边界数据(如国家/地区、州、省或县),要在“图形生成器”中查看相应的地图,请使用“地图角色”属性。
请注意以下事项:
• 若定制的边界文件位于默认定制地图目录中,则只需在 -Name 文件中指定“地图角色”属性。
• 若定制的边界文件位于其他位置,则必须在 -Name 文件和所分析的数据表中指定“地图角色”属性。
• 包含“地图角色”属性的列必须包含相同的边界名称,但列名可以有所不同。
有关使用“地图角色”属性的示例,请参见《基本绘图》中的地图角色。
将“地图角色”属性添加至 -Name 数据表
1. 右击包含边界的列,然后选择列属性 > 地图角色。
2. 选择形状名称定义。
3. 点击确定。
4. 保存数据表。
将“地图角色”属性添加至所分析的数据表
注意:仅当您的定制边界文件未包含在默认定制地图目录中时才执行以下步骤。
1. 右击包含边界的列,然后选择列属性 > 地图角色。
2. 选择形状名称使用。
3. 在地图名称数据表旁边,点击 浏览至 -Name 地图数据表。您可以输入相对或绝对路径。
若地图数据表位于同一文件夹中,只需输入文件名。路径包含空格时无需使用引号。
4. 在形状定义列旁边,输入地图数据表中值与选定列中的值匹配的列的名称。
5. 点击确定。
6. 保存数据表。
在“图形生成器”中生成图形并为形状区域指定修改的列后,边界即显示在图形上。
当数据集包含评级(例如,五分制评级)时,您可能想知道在这些评级的子集中响应的百分比。添加“超类别”列属性可将特定类别分组到一个类别。
仅“分类”平台中支持“超类别”。
将“超类别”属性添加至数据列
1. 右击您要对其类别进行分组的列。
2. 选择列属性 > 超类别。
列属性窗口显示“超类别”选项(超类别配置示例)。
3. 选择“列的类别”列表中您想要分组的类别。
4. 在“超类别名称”旁输入一个描述性名称。
将名称留空,JMP 会根据您选择的类别命名这些超类别。
5. 点击添加创建超类别。
6. 点击超类别红色小三角并从以下选项中进行选择:
选项 > 隐藏
隐藏报表和图形中选定超类别的数据。
全部添加
从列中的所有类别创建一个超类别。
添加均值和添加标准差
计算值得分的统计量。请参见《消费者研究》。
7. 点击确定将属性添加至列。
超类别配置示例
多重响应一词是指列中单元格包含不止一个响应值的情况。例如,Consumer Preferences.jmp 样本数据表的刷牙分隔列中的许多单元格都包含多个值。例如,第 6 行包含“Wake, After Meal, Before Sleep”。
若想要指定逗号之外的分隔符,需添加“多重响应”列属性。也可以在“列信息”窗口中将该列的建模类型改为“多重响应”。有关“多重响应”建模类型的详细信息,请参见关于建模类型。
JMP 为保存在 JMP 12 或更低版本中的数据表自动分配“多重响应”建模类型。该列必须包含“多重响应”列属性且分隔符必须是逗号,这样自动分配才能生效。您可能会选择删除“多重响应”列属性,但 JMP 并不会这样做。
“多重响应配置”窗口
注意:您可以在“分类”平台中使用“多重响应”属性。请参见《消费者研究》中的多重响应。您还可以在“数据过滤器”中使用该属性。请参见数据过滤器。若分隔符为逗号,请考虑改用“多重响应”建模类型。
使用“收益矩阵”列属性向预测模型的名义型或有序型响应变量的水平分配权重。对于名义型响应,您可以使用概率阈值指定收益矩阵条目。
注意:以下平台使用“收益矩阵”列属性:“模型比较”、“分割”、“偏最小二乘”和“拟合模型”。“拟合模型”中使用“收益矩阵”列属性的特质包括“广义回归”、“名义型 Logistic”和“有序型 Logistic”。
选择列属性 > 收益矩阵后会显示一个矩阵模板,选定列中的每个值都对应一行和一列。实际水平显示为行,预测水平显示为列。正确的决策是位于对角线上的决策,此处的预测水平等于实际水平。
• 对于对角线条目,输入反映正确决策的收益或权重的值。
• 对于非对角线条目,输入反映错误决策的收益(或损失)或权重的值。
• 对于未作出预测的情形,使用“未决策”列指示关联的收益或损失。
若响应为二值响应,收益矩阵模板下方还会出现其他选项。这些选项支持您指定概率阈值,而不是直接在收益矩阵中输入权重。
指定“目标”和“概率阈值”。然后点击“设置”更新收益矩阵。
目标
为其建模概率的水平。
概率阈值
目标水平概率的阈值。若某观测落在目标水平中的概率超过概率阈值,该观测将被分类到该水平中。
设置
在收益矩阵模板中输入反映您所指定的“目标”和“概率阈值”的值。请参见概率阈值计算。
用 t 表示阈值概率。点击“设置”时,收益矩阵中的条目按如下方式指定:
• 0 表示每个对角线条目,反映正确决策无损失
• -1 表示实际值非目标水平时所预测的目标水平
• -t/(1 - t) 表示实际值为目标水平时所预测的非目标水平
这意味着用于分类到两个水平中的收益计算如下:
“最佳收益预测”是具有这两值中较大收益的水平。从上面这两个收益等式可以推断出:只要概率[目标水平] 至少为 t,观测即分配给目标水平。
对于具有“收益矩阵”列属性的名义型或有序型列,多数建模平台都支持您保存反映收益矩阵条目的公式列。拟合模型,然后选择“保存预测公式”或“保存概率公式”选项。除了将常用预测公式保存到数据表,JMP 还会保存以下相应的常用公式列:
• <水平> 的收益:对于每个响应水平,会有一列给出用于将每个观测分类到该水平中的期望收益。
• <列名> 的最佳收益预测:对于每个观测,给出具有最高期望收益的响应的水平。
• <列名> 的期望收益:对于每个观测,给出“最佳收益预测”列定义的分类的期望收益。
• <列名> 的实际收益:对于每个观测,给出用于将该观测分类到“最佳收益预测”列所指定的水平中的实际收益。
请参见两个以上水平的收益矩阵的示例。有关在建模中使用收益矩阵的示例,请参见《预测和专业建模》中的“决策矩阵”报表。
下例显示了 Travel Costs.jmp 样本数据表中的航空公司列的收益矩阵。
“收益矩阵”窗口的示例
要查看如何在该收益矩阵中赋值,请考虑一个旅行社的情形:该旅行社通过四个航空公司(Carrier 1 到 Carrier 4)来为其客户提供服务。对于售出的每张机票,该旅行社都根据客户选择的航空公司来赚取利润。若旅行社推荐或预测了某家航空公司,它需为预订机票支付一小笔预订费。若客户决定乘坐预测的航空公司的航班,旅行社的收益中将扣除这笔预订费。但是,若客户决定乘坐另一家航空公司的航班,旅行社就会损失预订费,还必须支付另一笔预订费。旅行社的收益因为预测不准而降低。
假定 Carrier 1 到 Carrier 4 的预订费分别为 $15、$20、$30 和 $50,售票收益分别为 $40、$40、$100 和 $110。
若旅行社向客户推荐 Carrier 1 且客户随后决定购票,则旅行社在支付了 $15 预订费后又收到了 $40,纯利为 $25。若旅行社预测客户选择 Carrier 4 但客户改选了 Carrier 1,则旅行社会损失向 Carrier 4 支付的 $50 预订费,还必须向 Carrier 1 支付 $15 的预订费。这样旅行社的净损失为 $40 - $50 - $15 = -$25。
样本数据表 Liver Cancer.jmp 包含 136 位患者的疾病严重性等级。您关注的是如何使用从 BMI 到黄疸这些列中给出的预测变量对“严重性”建模。通常的模型预测公式会将患者分类到最可能的严重性水平中。不过,与将实际上严重性“低”的患者归入严重性“高”的患者的错误相比,将实际上严重性“高”的患者归入严重性“低”的患者的错误为代价高的错误。因此,对于患者病情严重性实际很高的情况,您想要为将这些患者误分类为“低”的情况分配更高的成本。
您可以通过设置概率阈值来分配这一较高成本。借助专家的输入,您确定以下策略为良好策略:将处于“高”水平的预测概率超过 0.4 的所有患者分类到严重性“高”的水平中。
1. 选择帮助 > 样本数据库,然后打开 Liver Cancer.jmp。
2. 选择“严重性”列并选择列 > 列信息。
3. 选择“收益矩阵”列属性。
4. 将“目标”改为 High。
5. 输入 0.4 作为概率阈值。
6. 点击设置。
收益矩阵随之更新以显示相应的权重。
显示与概率阈值对应的权重的收益矩阵
收益矩阵显示:将严重性“高”的患者误分类为严重性“低”的患者的损失为 -1;而将严重性“低”的患者误分类为严重性“高”的患者的损失较小,为 -0.6667。
“信息性缺失”列属性指示大多数拟合平台为包含缺失值的列使用编码系统。对于连续列,编码系统包含两列。第一列为原始值列,其缺失值用非缺失值的均值替换;第二列为指示符列,它指示哪些行缺失。对于分类列,缺失值被视为列的非重复水平。