通过选择分析 > 多元方法 > 主成分来启动“主成分”平台。“多元”平台和“三维散点图”平台也提供主成分分析。
主成分分析的示例中所述的示例使用 Solubility.jmp 样本数据表中的所有连续变量。
图 4.3 “主成分”启动窗口
有关“选择列”红色小三角菜单中选项的详细信息,请参见《使用 JMP》中的“列过滤器”菜单。
Y,列
要进行成分分析的变量。
Z,补充变量
要显示的补充变量。补充变量不包含在主成分计算中,包括它们不会影响结果。连续型补充变量可以投影到载荷图中,用于增强解释。
权重
标识一列,该列的数值为分析中的每一行都分配一个权重。
注意:“宽”估计方法和“稀疏”估计方法忽略“权重”角色。
频数
标识一列,该列的数值为分析中的每一行都分配一个频数。
注意:“宽”估计方法和“稀疏”估计方法忽略“频数”角色。
依据
为“依据”列指定的每个值创建“主成分”报表,以便您可以为每个组执行单独的分析。
估计方法
指定计算相关性的方法。其中有些方法解决了缺失数据的处理。
默认
默认选项使用“逐行”、“配对”或“REML”方法。“JMP 警示”还建议在适当的时候切换至“宽”方法。
‒ 逐行估计用于不含缺失值的数据表。
‒ 配对估计用于包含缺失值并且多于 10 列、多于 5,000 行或列数多于行数的数据表。
‒ 在其他情况下使用 REML 估计。
‒ 对于数据表超过 500 列并且列数多于行数的情况,“JMP 警示”窗口会建议使用宽估计。这是因为在列数过多时使用其他方法,计算时间会相当长。点击宽切换至“宽”方法,或点击继续使用原本选择的方法。
REML
限制最大似然 (REML) 估计使用所有数据,即使存在缺失值。由于存在偏倚修正因子,若您的数据集很大且包含许多缺失值,该方法会很慢。因此,REML 最适用于较小的数据集。若数据中不含缺失单元格,则 REML 和 ML 估计值等价于样本协方差矩阵。若存在缺失单元格,与 ML 估计相比,REML 的方差和协方差估计值的偏倚更小。有关统计详细信息,请参见REML。
ML
最大似然 (ML) 估计使用所有数据,即使存在缺失值。由于 ML 的估计值生成速度更快,该方法最适用于包含缺失数据的大数据表。
稳健
稳健估计使用所有数据,即使存在缺失值。该方法降低了极值的权重,因此最适用于可能具有离群值的数据表。有关统计详细信息,请参见稳健。
逐行
逐行估计为每对列计算 Pearson 相关性系数。有关统计详细信息,请参见Pearson 乘积矩相关系数。逐行估计不使用包含缺失值的观测。该方法可用于排除包含缺失数据的所有观测。
配对
配对估计使用所有数据,即使存在缺失值。该估计方法使用这两列中不含缺失值的所有观测为每对列计算 Pearson 相关性系数。有关统计详细信息,请参见Pearson 乘积矩相关系数。配对估计最适用于包含缺失值并且列数多于行数、多于 10 列或多于 5,000 行的数据表。
宽
宽估计不使用含缺失值的观测,因此在应用该方法之前会删除包含缺失单元格的行。该估计方法使用基于完整奇异值分解的算法。该算法避免计算协方差矩阵,因此计算效率较高,适用于数据中列非常多的情况。有关统计详细信息,请参见宽。
稀疏
稀疏估计使用所有数据,即使存在缺失值。该估计方法使用基于部分奇异值分解的算法,它只计算第一个指定数量的奇异值和奇异值向量。该算法避免计算协方差矩阵以及不必要的主成分,因此计算效率较高,当数据稀疏(即包含很多零时)或当数据中具有大量列时,该算法非常有用。有关统计详细信息,请参见稀疏。
注意:若您选择“REML”、“ML”或“稳健”,而您的数据表中的列数多于行数并且具有缺失值,JMP 会将“估计方法”切换为“配对”。
成分数
(仅当将“稀疏”指定为估计方法时才可用。)指定要估计的成分数。通常,成分数远小于数据的维。
不同的估计方法配备了多种方式处理缺失数据。您还可以采用以下方式估计缺失值:
• 使用多元方法 > 多元下面的“补缺缺失数据”选项。请参见补缺缺失数据。
• 使用分析 > 筛选 > 探索缺失值下面的“多元正态补缺”或“多元 SVD 补缺”实用工具。请参见《预测和专业建模》中的“探索缺失值”实用工具。