示例：堆叠数据以进行单因子分析

基本分析 > 单因子分析 > “单因子”平台的更多示例 > 示例：堆叠数据以进行单因子分析

发布日期: 04/13/2021

示例：堆叠数据以进行单因子分析

若您的数据采用 JMP 数据表之外的格式，有时这些数据会排列成一行中包含多个观测的信息。要在 JMP 中分析这些数据，您必须导入数据并调整其结构，令 JMP 数据表中的每行都包含一个观测的信息。例如，假定数据包含在电子表格中。在三条生产线上生产的部件的数据排列在三组列中。在 JMP 数据表中，您需要将这三条生产线上的数据堆叠到一组列中，以便每行表示单个部件的数据。

说明和目标

本例使用文件 Fill Weights.xlsx，其中包含从三条不同生产线随机抽样的麦片盒的重量。Figure 6.38 显示了数据格式。

• “ID”列包含测量的每个麦片盒的标识符。

• “Line”列包含从相应生产线抽样的麦片盒的重量（以盎司为单位）。

图 6.38 数据格式

Image shown here

这些麦片盒的目标填充重量为 12.5 盎司。尽管您关注的是这三条生产线是否满足目标要求，但最初您想要看看这三条生产线是否实现了相同的填充率均值。您可以使用“单因子”来检验填充重量均值之间的差值。

要使用“单因子”平台，您需要执行以下操作：

1. 将数据导入 JMP。请参见导入数据。

2. 重塑数据，以便 JMP 数据表中的每行都仅反映一个观测。重塑数据要求您将麦片盒 ID、生产线标识符和重量都堆叠到列中。请参见堆叠数据。

导入数据

本例演示将数据从 Microsoft Excel 导入 JMP 的两种方式。选择其中一种方法或探究两种方法：

• 使用文件 > 打开选项通过“Excel 导入向导”从 Microsoft Excel 文件导入数据。请参见使用“Excel 导入向导”导入数据。该方法对任何 Excel 文件都很方便。

• 将数据从 Microsoft Excel 复制并粘贴到新的 JMP 数据表中。请参见复制和粘贴 Excel 中的数据。您可以对小型数据文件使用该方法。

有关如何从 Microsoft Excel 导入数据的详细信息，请参见《使用 JMP》中的导入 Microsoft Excel 文件。

使用“Excel 导入向导”导入数据

1. 选择帮助 > 样本数据库，然后打开位于 Samples/Import Data 文件夹中的 Fill Weights.xlsx。

该文件在“Excel 导入向导”中打开。

2. 在列标题起始于行旁边键入 3。

在 Excel 文件中，第 1 行包含有关该表的信息，第 2 行为空。列标题信息从第 3 行开始。

3. 为带列标题的行数键入 2。

在 Excel 文件中，第 3 行和第 4 行都包含列标题信息。

4. 点击导入。

图 6.39 使用“Excel 导入向导”创建的 JMP 表

Image shown here

数据包含在七行中，每行中都显示多个 ID。对于这三条生产线中的每一条，都有一个“ID”列和一个“重量”列，总共有六列。

请注意，“ID”列名中的“Weights”部分不是必要的，有误导作用。您可以现在重命名这些列，但是堆叠数据之后再重命名这些列将更为高效。

5. 前进到堆叠数据。

复制和粘贴 Excel 中的数据

1. 在 Microsoft Excel 中打开 Fill Weights.xlsx。

2. 选择表内数据，但排除不必要的“重量”标题。

3. 右击并选择复制。

4. 在 JMP 中，选择文件 > 新建 > 数据表。

5. 选择编辑 > 带列名一起粘贴。

若剪贴板上的选择内容中包含列名，则使用编辑 > 带列名一起粘贴选项。

图 6.40 使用“带列名一起粘贴”创建的 JMP 表

Image shown here

6. 前进到堆叠数据。

堆叠数据

使用“堆叠”选项在新数据表的每行中放入一个观测。有关“堆叠”选项的详细信息，请参见《使用 JMP》中的堆叠列。

1. 在 JMP 数据表中，选择表 > 堆叠。

2. 选择全部六列并点击堆叠列。

3. 选择多序列堆叠。

您需要堆叠两个序列，分别是“ID”和“Line”，所以您无需更改默认设置为 2 的“序列数”。包含序列的列不连续。这些列交替显示（ID、Line A、ID、Line B、ID、Line C）。出于此原因，您未选中“连续”。

4. 取消选择按行堆叠。

5. 选择剔除缺失行。

6. 在输出表名称旁边输入堆叠。

7. 点击确定。

在新数据表中，数据和数据 2 是包含“ID”和“重量”数据的列。

8. 右击标签列标题，然后选择删除列。

标签列中的条目曾是导入的数据表中麦片盒 ID 的列标题。不再需要这些条目。

9. 通过双击列标题重命名每一列。按如下方式更改列名：

‒ “数据”改为“ID”

‒ “标签 2”改为“生产线”

‒ “数据 2”改为“重量”

10. 在列面板中，点击 ID 左侧的图标并选择名义型。

尽管 ID 被指定为数字，但它是一个标识符，应在建模时被视为名义型。这在本例中不是问题，但最好为列指定适合的建模类型。

11. （仅在使用文件 > 打开从 Excel 导入数据时适用。）请执行以下操作：

1. 点击生产线列标题选择该列，然后选择列 > 重新编码。

2. 更改新建值列中的值，以便与下面的Figure 6.41 中的值匹配。

图 6.41 对列值重新编码

Image shown here

3. 点击完成 > 原位。

新的数据表现在正确调整结构以适应 JMP 分析。每行都包含单个麦片盒的数据。第一列提供麦片盒 ID，第二列提供生产线，第三列提供麦片盒的重量（Figure 6.42）。

图 6.42 重新编码的数据表

Image shown here

执行单因子分析

示例的这一部分包含以下任务：

• 执行单因子方差分析以检验三条生产线中填充重量均值中的差值。

• 获取比较环以探索哪些生产线可能不同。

• 若想要重新称重或进一步检查生产线上的麦片盒，可通过 ID 为点添加标签。

开始之前，验证您使用的是堆叠数据表。

1. 选择分析 > 以 X 拟合 Y。

2. 选择重量并点击 Y，响应。

3. 选择生产线并点击 X，因子。

4. 点击确定。

5. 点击“‘生产线-重量’单因子分析”旁边的红色小三角并选择均值/方差分析。

图中的均值菱形显示生产线均值的 95% 置信区间。落在均值菱形之外的点可能看起来像离群值。但实际上它们不是。要查看这种情况，请在图中添加箱线图。

6. 点击“‘生产线-重量’单因子分析”旁边的红色小三角并选择显示选项 > 箱线图。

所有点都落在箱线图边界内。因此这些点不是离群值。

7. 从数据表的列面板中，右击 ID 并选择添加标签/撤销标签。

8. 在该图中，将光标置于各点上方以查看其 ID 值，以及其生产线和重量数据（Figure 6.43）。

9. 点击“‘生产线-重量’单因子分析”旁边的红色小三角并选择比较均值 > 所有对，Tukey HSD。

比较环显示在图右侧的面板中。

10. 点击底部的比较环。

图 6.43 按生产线划分的重量的单因子分析

Image shown here

在“方差分析”报表中，p 值 0.0102 为均值不全相同提供了证据。在该图中，“Line C”的比较环处于选定状态并显示为红色。由于“Line B”的圆环显示为深灰色，“Line C”的均值在 0.05 显著性水平下不同于“Line B”的均值。“Line A”与“Line B”的均值未显示统计上的显著性差异。

图中所示的均值菱形跨均值的 95% 置信区间。95% 置信区间的数值边界在“单因子方差分析均值”报表中提供。这两者都表明“Line B”和“Line C”的置信区间未包含目标填充重量 12.5：“Line B”看起来填充过度，“Line C”看起来填充不足。对于这两条生产线，必须去了解导致未满足目标填充重量的底层原因。

需要更多信息？有问题？从 JMP 用户社区得到解答 (community.jmp.com).