聚类是将在几个变量上享有相似值的观测分组在一起的一种多元方法。通常情况下,观测在 p 维空间内散布不均,其中 p 是变量数。这些观测反而会形成聚簇或聚类。标识出这些聚类使您可以更深层次地了解您的数据。
注意:JMP 还提供可以对变量聚类的平台。请参见第 285 页的“聚类变量”一章。
JMP 提供四个平台供您对观测聚类:
• “层次聚类”可用于最多包含数万行的小型表,并且允许字符数据。“层次聚类”将行按描绘为一棵树的层次序列形式进行组合。您可以在生成树后选择最适合您数据的聚类数。
• “K 均值聚类”适用于多达数百万行的大型表,并且只允许数值数据。您需要提前指定聚类数 k。该算法可以对聚类种子点做出推测。随后开始在将数据点分配到相应类别和重新计算聚类中心之间交替进行迭代过程。
• “正态混合”适用于数据来自重叠的多元正态分布的混合分布这种情况,并且只允许数值数据。对于具有多元离群值的情形,您可以使用假设具有均匀分布的离群值聚类。
您需要提前指定聚类数。最大似然用于同时估计混合比例以及均值、标准差和相关性。为每个点指定属于每个组的概率。使用 EM 算法获取估计值。
• “潜在类分析”适用于大多数变量是分类变量这种情况。您需要提前指定聚类数。该算法拟合假定具有多项式混合分布的模型。为每个观测计算聚类成员关系的最大似然估计值。观测会被归类到其成员关系概率最大的聚类中。
方法 |
数据类型或建模类型 |
数据表大小 |
指定聚类数 |
---|---|---|---|
层次聚类 |
任意 |
使用快速 Ward 法,最多 200,000 行 使用其他方法,最多 5,000 行 |
否 |
K 均值聚类 |
数值 |
多达数百万行 |
是 |
正态混合 |
数值 |
任意大小 |
是 |
潜在类分析 |
名义型或有序型 |
任意大小 |
是 |
有些聚类平台提供用于处理数据中的离群值的选项。但是,若数据中有离群值,则最好在分析之前探索这些离群值。可以使用“探索离群值”实用工具完成该操作。详细信息,请参见《预测和专业建模》中的“Explore Outliers Utility”。