JMP 13.2 联机文档
发现 JMP
使用 JMP
基本分析
基本绘图
刻画器指南
实验设计指南
拟合线性模型
预测和专业建模
多元方法
质量和过程方法
可靠性和生存方法
消费者研究
Scripting Guide
JSL Syntax Reference
多元方法
•
层次聚类
•
启动“层次聚类”平台
• 计算距离的方法
上一个
•
下一个
计算距离的方法
选择用于计算距离的方法。有关距离公式的信息,请参见
距离方法公式
。
Ward 法
在 Ward 最小方差法中,两个聚类之间的距离是对所有变量求和得出的两个聚类之间的方差分析平方和。每一次生成聚类时,针对通过合并上一次生成的两个聚类而获得的所有分区,将类内平方和进行最小化。当平方和除以总平方和时会得到方差比例(平方半偏相关),这样可以更容易地解释该平方和。
在假定使用多元正态混合、球形协方差矩阵和等抽样概率的前提下,Ward 法通过连接聚类将层次每个水平下的似然最大化。
Ward 法倾向于连接具有少量观测的聚类,而且强烈偏向于生成具有大致相同数量观测的聚类。它还对离群值非常敏感。请参见 Milligan (1980)。
类平均法
两个聚类之间的距离是观测对之间的平均距离。类平均法倾向于连接具有较小方差的聚类,并且略微偏向于生成具有相同方差的聚类。请参见 Sokal and Michener (1958)。
重心法
两个聚类之间的距离定义为其均值之间的欧氏距离平方。与大多数其他层次方法相比,重心法对离群值更为稳健,但其他方面的性能却不如 Ward 法或类平均法。请参见 Milligan (1980)。
最短距离法
两个聚类之间的距离是一个聚类中的某个观测与另一聚类中的某个观测之间的最小距离。最短距离法提供许多用户所需的理论属性,但在 Monte Carlo 研究中表现不好。请参见 Jardine and Sibson (1976)、Fisher and Van Ness (1971)、Hartigan (1981) 和 Milligan (1980)。最短距离法源自 Florek et al. (1951a, 1951b),后来又被 McQuitty (1957) and Sneath (1957) 改写。
由于不对聚类形状施加限制,最短距离法为能够检测细长和不规则的聚类而牺牲了恢复紧密聚类的性能。最短距离法往往会在分隔主聚类之前,先切割掉分布的尾部。请参见 Hartigan (1981)。
最长距离法
两个聚类之间的距离是一个聚类中的某个观测与另一聚类中的某个观测之间的最大距离。最长距离法强烈偏向于生成具有大致相等直径的聚类,并且可能被中度离群值严重扭曲变形。请参见 Milligan (1980)。
快速 Ward 法
应用对大量行计算 Ward 法更快的算法。由于该算法不需要计算距离矩阵,因此缩短了计算时间。只要超过 2,000 行就自动使用该方法。