若您的数据采用 JMP 数据表之外的格式,有时这些数据会排列成一行中包含多个观测的信息。要在 JMP 中分析这些数据,您必须导入数据并调整其结构,令 JMP 数据表中的每行都包含一个观测的信息。例如,假定数据包含在电子表格中。在三条生产线上生产的部件的数据排列在三组列中。在 JMP 数据表中,您需要将这三条生产线上的数据堆叠到一组列中,以便每行表示单个部件的数据。
本例使用文件 Fill Weights.xlsx,其中包含从三条不同生产线随机抽样的麦片盒的重量。图 6.38 显示了数据格式。
• “ID”列包含测量的每个麦片盒的标识符。
• “Line”列包含从相应生产线抽样的麦片盒的重量(以盎司为单位)。
图 6.38 数据格式
这些麦片盒的目标填充重量为 12.5 盎司。尽管您关注的是这三条生产线是否满足目标要求,但最初您想要看看这三条生产线是否实现了相同的填充率均值。您可以使用“单因子”来检验填充重量均值之间的差值。
要使用“单因子”平台,您需要执行以下操作:
1. 将数据导入 JMP。请参见导入数据。
2. 重塑数据,以便 JMP 数据表中的每行都仅反映一个观测。重塑数据要求您将麦片盒 ID、生产线标识符和重量都堆叠到列中。请参见堆叠数据。
本例演示将数据从 Microsoft Excel 导入 JMP 的两种方式。选择其中一种方法或探究两种方法:
• 使用文件 > 打开选项通过“Excel 导入向导”从 Microsoft Excel 文件导入数据。请参见使用“Excel 导入向导”导入数据。该方法对任何 Excel 文件都很方便。
• 将数据从 Microsoft Excel 复制并粘贴到新的 JMP 数据表中。请参见复制和粘贴 Excel 中的数据。您可以对小型数据文件使用该方法。
有关如何从 Microsoft Excel 导入数据的详细信息,请参见《使用 JMP》中的导入 Microsoft Excel 文件。
1. 选择帮助 > 样本数据库,然后打开位于 Samples/Import Data 文件夹中的 Fill Weights.xlsx。
该文件在“Excel 导入向导”中打开。
2. 在列标题起始于行旁边键入 3。
在 Excel 文件中,第 1 行包含有关该表的信息,第 2 行为空。列标题信息从第 3 行开始。
3. 为带列标题的行数键入 2。
在 Excel 文件中,第 3 行和第 4 行都包含列标题信息。
4. 点击导入。
图 6.39 使用“Excel 导入向导”创建的 JMP 表
数据包含在七行中,每行中都显示多个 ID。对于这三条生产线中的每一条,都有一个“ID”列和一个“重量”列,总共有六列。
请注意,“ID”列名中的“Weights”部分不是必要的,有误导作用。您可以现在重命名这些列,但是堆叠数据之后再重命名这些列将更为高效。
5. 前进到堆叠数据。
1. 在 Microsoft Excel 中打开 Fill Weights.xlsx。
2. 选择表内数据,但排除不必要的“重量”标题。
3. 右击并选择复制。
4. 在 JMP 中,选择文件 > 新建 > 数据表。
5. 选择编辑 > 带列名一起粘贴。
若剪贴板上的选择内容中包含列名,则使用编辑 > 带列名一起粘贴选项。
图 6.40 使用“带列名一起粘贴”创建的 JMP 表
6. 前进到堆叠数据。
使用“堆叠”选项在新数据表的每行中放入一个观测。有关“堆叠”选项的详细信息,请参见《使用 JMP》中的堆叠列。
1. 在 JMP 数据表中,选择表 > 堆叠。
2. 选择全部六列并点击堆叠列。
3. 选择多序列堆叠。
您需要堆叠两个序列,分别是“ID”和“Line”,所以您无需更改默认设置为 2 的“序列数”。包含序列的列不连续。这些列交替显示(ID、Line A、ID、Line B、ID、Line C)。出于此原因,您未选中“连续”。
4. 取消选择按行堆叠。
5. 选择剔除缺失行。
6. 在输出表名称旁边输入堆叠。
7. 点击确定。
在新数据表中,数据和数据 2 是包含“ID”和“重量”数据的列。
8. 右击标签列标题,然后选择删除列。
标签列中的条目曾是导入的数据表中麦片盒 ID 的列标题。不再需要这些条目。
9. 通过双击列标题重命名每一列。
‒ “数据”改为“ID”
‒ “标签 2”改为“生产线”
‒ “数据 2”改为“重量”
10. 在列面板中,点击 ID 左侧的图标并选择名义型。
尽管 ID 被指定为数字,但它是一个标识符,应在建模时被视为名义型。这在本例中不是问题,但最好为列指定适合的建模类型。
11. (仅在使用文件 > 打开从 Excel 导入数据时适用。)请执行以下操作:
1. 点击生产线列标题选择该列,然后选择列 > 重新编码。
2. 点击新建列并选择原位。
3. 更改新建值列中的值,以便与下面的图 6.41 中的值匹配。
图 6.41 对列值重新编码
4. 点击重新编码。
新的数据表现在正确调整结构以适应 JMP 分析。每行都包含单个麦片盒的数据。第一列提供麦片盒 ID,第二列提供生产线,第三列提供麦片盒的重量(图 6.42)。
图 6.42 重新编码的数据表
示例的这一部分包含以下任务:
• 执行单因子方差分析以检验三条生产线中填充重量均值中的差值。
• 获取比较环以探索哪些生产线可能不同。
• 若想要重新称重或进一步检查生产线上的麦片盒,可通过 ID 为点添加标签。
开始之前,验证您使用的是堆叠数据表。
1. 选择分析 > 以 X 拟合 Y。
2. 选择重量并点击 Y,响应。
3. 选择生产线并点击 X,因子。
4. 点击确定。
5. 点击“‘生产线-重量’单因子分析”旁边的红色小三角并选择均值/方差分析。
图中的均值菱形显示生产线均值的 95% 置信区间。落在均值菱形之外的点可能看起来像离群值。但实际上它们不是。要查看这种情况,请在图中添加箱线图。
6. 点击“‘生产线-重量’单因子分析”旁边的红色小三角并选择显示选项 > 箱线图。
所有点都落在箱线图边界内。因此这些点不是离群值。
7. 从数据表的列面板中,右击 ID 并选择添加标签/撤销标签。
8. 在该图中,悬停在各点上方以查看其 ID 值,以及其生产线和重量数据(图 6.43)。
9. 点击“‘生产线-重量’单因子分析”旁边的红色小三角并选择比较均值 > 所有对,Tukey HSD。
比较环显示在图右侧的面板中。
10. 点击底部的比较环。
图 6.43 按生产线划分的重量的单因子分析
在“方差分析”报表中,p 值 0.0102 为均值不全相同提供了证据。在该图中,“Line C”的比较环处于选定状态并显示为红色。由于“Line B”的圆环显示为深灰色,“Line C”的均值在 0.05 显著性水平下不同于“Line B”的均值。“Line A”与“Line B”的均值未显示统计上的显著性差异。
图中所示的均值菱形跨均值的 95% 置信区间。95% 置信区间的数值边界在“单因子方差分析均值”报表中提供。这两者都表明“Line B”和“Line C”的置信区间未包含目标填充重量 12.5:“Line B”看起来填充过度,“Line C”看起来填充不足。对于这两条生产线,必须去了解导致未满足目标填充重量的底层原因。