多元方法 > 层次聚类 > “层次聚类”平台的统计详细信息 > 近邻连接循环的统计详细信息
发布日期: 09/18/2023

近邻连接循环的统计详细信息

在“层次聚类”平台中,“近邻连接循环”用在“混合 Ward”法的第一阶段中。这样做是为了减少传递给层次聚类例程的表的大小。“近邻连接循环”算法指定以下内容:

混合目标

指定停止算法之前允许的最大聚类数。默认值为 400。

混合循环

指定停止算法之前执行的最小近邻连接循环数。默认值为 30。

混合初始 K

指定在近邻连接循环中使用的近邻的初始数目。默认值为 10。

“近邻连接循环”算法重复以下步骤:

1. 创建有利点 (VP) 树以高效查找最近邻。

2. 对于每个项,确定该项的 k 个最近邻。

3. 近邻对按距离排序。

4. 对于近邻对中距离最小的那一半,若项尚未在该循环中与另一个项连接,则连接每对中的项。连接的项成为下一个循环中的项。

5. 重复第 1 步第 4 步,直到达到最小循环数(混合循环)。

若项目数小于或等于“混合目标”,则停止。

若项目数大于“混合目标”,请继续重复第 1 步第 4 步,直到项目数小于或等于“混合目标”。

在每个循环中,若连接的对的数量较少,则将在下一个循环中增加最近邻数 k。若在前一循环中连接了足够数量的对,则在后一个循环中可以减少 k 的值。k 的值根据以下规则增减。

若连接的第 4 步 中的对少于 20%,则 k 的值加 10。

若连接的第 4 步 中的对少于 10%,则 k 的值加 20。

若连接的第 4 步 中的对少于 5%,则 k 的值加 30。

若连接的第 4 步 中的对超过 30%,则 k 的值减 10。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).