通过选择分析 > 聚类 > 层次聚类来启动“层次聚类”平台。
图 13.4 “层次聚类”启动窗口
有关“选择列”红色小三角菜单中选项的详细信息,请参见《使用 JMP》中的““列过滤器”菜单”。
Y,列
用于对观测聚类的变量。
排序
基于指定列按聚类的均值对其排序。
提示:将通过执行主成分分析获取的第一主成分用作“排序”列。聚类按这些值排序。
特性 ID
(仅当选择数据被堆叠作为数据结构时才可用。)指定堆叠的变量。
对象 ID
(仅当选择被汇总的数据或数据被堆叠作为数据结构时才可用。)为堆叠了其测量值的每个单元提供唯一标识符的一列或多列。
标签
其值用于对报表中的系统树图添加标签的列。
注意:若选定的数据结构为数据为距离矩阵,“标签”列的数据类型必须为字符型。
依据
一列,其水平定义不同的分析。对于指定列的每个水平,都分析相应行。结果显示在不同的报表中。若分配了多个“依据”变量,则为“依据”变量水平的每个可能组合生成单独分析。
方法
指定用于计算距离以便定义聚类的方法。对于每种方法,将连接聚类,以使该方法定义的距离最小化。有关距离公式的信息,请参见距离方法的统计详细信息。
Ward 法
将两个聚类之间的距离定义为两个聚类之间的方差分析平方和(所有变量的方差分析和相加)。每一次生成聚类时,在通过合并上一次生成的两个聚类可能获得的所有划分中,类内平方和进行了最小化。当平方和除以总平方和时会得到方差比例(平方半偏相关),这样可以更容易地解释该平方和。
在假定使用多元正态混合、球形协方差矩阵和等抽样概率的前提下,Ward 法通过将层次每个水平下的似然最大化来生成聚类。
Ward 法倾向于生成有少量观测的聚类,而且特别偏向于生成具有大致相同观测数的聚类。它还对离群值非常敏感。请参见 Milligan (1980)。
类平均法
将两个聚类之间的距离定义为观测对之间的平均距离。类平均法倾向于连接具有较小方差的聚类,并且略微偏向于生成具有相同方差的聚类。请参见 Sokal and Michener (1958)。
重心法
将两个聚类之间的距离定义为其均值之间的欧氏距离平方。与大多数其他层次方法相比,重心法对离群值更为稳健,但其他方面的性能却不如 Ward 法或类平均法。请参见 Milligan (1980)。
最短距离法
将两个聚类之间的距离定义为一个聚类中的某个观测与另一聚类中的某个观测之间的最小距离。最短距离法提供许多用户所需的理论属性,但在 Monte Carlo 研究中表现不好。请参见 Jardine and Sibson (1971)、Fisher and Van Ness (1971)、Hartigan (1981) 和 Milligan (1980)。最短距离法源自 Florek et al. (1951a, 1951b),后来又被 McQuitty (1957) 和 Sneath (1957) 改写。
由于不对聚类形状施加约束,最短距离法能够检测细长和不规则的聚类,却牺牲了恢复紧密聚类的性能。最短距离法往往会在区分主聚类之前,先切割掉分布的尾部。请参见 Hartigan (1981)。
最长距离法
将两个聚类之间的距离定义为一个聚类中的某个观测与另一聚类中的某个观测之间的最大距离。最长距离法强烈偏向于生成具有大致相等直径的聚类,并且可能被中度离群值严重扭曲变形。请参见 Milligan (1980)。
快速 Ward 法
使用 Ward 法定义两个聚类之间的距离。“快速 Ward”使用近邻链算法来计算 Ward 距离。该算法缩短了计算时间,因为它不需要计算距离矩阵。只要超过 2000 行就会自动使用“快速 Ward”。
混合 Ward 法
应用将聚类分为两个阶段的算法。第一阶段是预处理步骤,该步骤使用近邻连接循环来创建初步聚类。请参见近邻连接循环的统计详细信息。这样做是为了减少传递给层次聚类例程的表的大小。在执行一定数量的循环或创建一定数量的聚类之后,使用 Ward 法形成剩余的聚类。当您有数万或数十万个项要聚类时,该方法非常有用。
注意:与快速 Ward 法不同,该方法不会生成与完整 Ward 法相同的层次结构。不过,对于大量的项,它需要的计算时间较少,特别是若您有多个计算核心并且可以使用多线程进行近邻搜索的情况下。
数据格式
指定在计算多元距离时使用的数据格式。
如往常的数据
矩形数据,每个观测对应一行,每个变量对应一列。
被汇总的数据
按一个或多个标识列的水平汇总的数据。当您选择该选项时,启动窗口中会出现“对象 ID”文本框。指定标识列作为“对象 ID”。被汇总的数据选项计算水平均值并将这些均值视为输入数据。
数据为距离矩阵
由观测之间的距离组成的数据。对于 n 个观测,距离表应有 n 行和 n + 1 列。有一列(通常为第一列)必须包含 n 个观测的唯一标识符。其余列包含该观测和 n 个观测之间的距离。请注意以下事项:
• 表的对角线元素应为 0 或缺失,因为点与其本身之间的距离为 0。不为 0 或缺失的值会视为 0,并且报表中会显示一条注释。
• 距离列可以是对称方矩阵,也可以是上三角或下三角矩阵并且缺失条目出现在下部或上部。若距离按方矩阵给出,则表不对称时报表中会出现一条警告。
• 您可以先开始使用不同的数据结构,然后保存距离矩阵。请参见保存距离矩阵。
当您选择数据为距离矩阵选项时,输入距离列作为“Y,列”,标识符列作为“标签”。“标签”列必须具有“字符型”数据类型。有关示例,请参见距离矩阵的示例。
数据被堆叠
具有单个关注响应且每个对象对应多行的数据。
当您选择数据被堆叠选项时,启动窗口中会显示“特性 ID”和“对象 ID”文本框。
• 输入单个列作为“Y,列”。
• 输入描述“Y,列”变量分组的列作为“特性 ID”。若仅输入两列且选择“添加空间测度”,则可以在聚类分析中添加要使用的空间成分。请参见添加空间测度。
• 输入对象的标识列作为“对象 ID”。
执行的分析等价于按“特性 ID”列拆分“Y,列”变量然后在不标准化响应列的情况下执行层次聚类。
提示:将该选项与“添加空间测度”选项一起使用可执行二维空间聚类。例如,晶片数据经常使用每个裸片对应一行的方式进行记录。关注点集中在晶片聚类。请参见使用“空间测度”进行晶片次品分类的示例。
警告:因为有单个测量值列,“标准化数据”选项不适用于堆叠数据。
标准化依据
指定在聚类之前如何对值进行标准化。这对于解决连续型和有序型列具有不同测量值尺度的问题很有用。
未标准化
使用原始数据。
列
通过减去列均值再除以列标准差,标准化每列中的值。
行
通过减去行均值再除以行标准差,标准化每行中的值。
列和行
通过先减去列均值和行均值,然后再加回总均值,对值进行标准化。然后,依据双重中心化数据的标准差对值统一尺度。
稳健标准化
减小离群值对连续型和有序型列的均值和标准差估计值的影响。该选项使用均值和标准差的 Huber M 估计值(Huber 1964;Huber 1973;Huber and Ronchetti 2009)。对于包含离群值的列,该选项在确定多元距离时可以更好地用标准化值来表示不同的测度。
注意:若使用“标准化依据”选项并选择“稳健标准化”,则稳健均值和标准差将用于您指定的任何标准化方法。
缺失值补缺
补缺缺失值。若变量数小于等于 50 或少于行数的一半,则使用多元正态补缺。否则使用多元 SVD 补缺。
多元正态补缺计算配对协方差以构造响应列的协方差矩阵。然后,通过等价于回归预测的方法,使用给定变量不带缺失值的所有预测变量补缺每个缺失值。若构造的协方差矩阵不是正定矩阵,则使用其列均值对缺失值补缺。
多元 SVD 补缺通过使用奇异值分解避免构造协方差矩阵。请参见《预测和专业建模》中的“探索缺失值”。
警告:缺失值补缺假定不存在任何聚类、数据来自单个多元正态分布,并且值的缺失是完全随机的。因为这些假设通常在实践中是不合理的,需谨慎使用该功能。不过与放弃大多数的数据相比,该功能可生成更具说明性的结果。
添加空间测度
(仅当将“数据被堆叠”选项选作“数据格式”时才可用。)当您的数据进行了堆叠并且包含两个对应于空间坐标(例如水平和垂直坐标)的特性列时,选择该选项。该选项将打开一个窗口,您可在其中选择和权衡空间成分以帮助聚类缺陷模式。这是专业方法,仅在非常特定的设置下适用。请参见空间测度的统计详细信息和使用“空间测度”进行晶片次品分类的示例。
双向聚类
(仅当将“惯例数据”或“被汇总的数据”选项选作“数据格式”时才可用。)按指定的列和行进行聚类。色图添加到系统树图中,Y 变量的系统树图位于其底部。通常情况下,对于双向聚类,变量以相同的尺度进行测量,您不需要对数据进行标准化。
高级选项
指定“混合 Ward”法的高级选项。
混合目标
指定切换到层次聚类例程之前允许的最大聚类数。当层次聚类例程启动时,聚类数必须小于或等于“混合目标”。“混合目标”的默认值为 400。
混合循环
指定切换到层次聚类例程之前执行的最小近邻连接循环数。“混合循环”的默认值为 30。
混合初始 K
指定在近邻连接循环中使用的近邻的初始数目。近邻的数量可以增加或减少,这取决于在前一个循环中找到的唯一近邻的数量。“混合初始 K”的默认值为 10。
混合随机化 PCA 维
指定要在“随机化 PCA”降维方法中使用的维数。当“混合随机化 PCA 维”的值是大于零的任何值并提供进一步的速度改进时,使用该方法。“随机化 PCA”方法通过计算近似主分量来减少问题的维数,从而得到点之间的近似距离。请参见 Halko, Martinsson, and Tropp (2011)。
混合日志详细信息
指定是否显示日志中混合 Ward 法的每个状态的状况和计时。
使用保存的聚类表
使用单独的聚类历史记录表以指定聚类。
当您使用“被汇总的数据”或“数据被堆叠”数据格式时,JMP 警示:没有足够的非缺失数据会很难理解。下列情形会出现该警示:
• 若选定的“数据格式”为“惯例数据”,当所有行或除一行之外的所有行有至少一个“Y,列”变量的值缺失时,就会出现该警示。
• 若选定的“数据格式”为“被汇总的数据”,当针对“对象 ID”列汇总您的数据,所有行或除一行之外的所有行有至少一个汇总“Y,列”变量的值缺失时,就会出现该警示。要查看“聚类”平台正在分析的数据结构,选择表 > 汇总,输入“对象 ID”列作为“分组”,“Y,列”变量作为“统计量 > 均值”。
• 若选定的“数据格式”为“数据被堆叠”,当针对“特性 ID”列拆分您的数据,所有行或除一行之外的所有行有至少一个拆分“Y,列”值缺失时,就会出现该警示。要查看“聚类”平台正在分析的数据结构,选择表 > 拆分,输入“特性 ID”列作为“拆分依据”,“Y,列”变量作为“拆分列”,“对象 ID”列作为“分组”。
提示:还会将一条消息打印输出到日志中,以标识具有缺失值的对象。