在“层次聚类”平台中,“近邻连接循环”用在“混合 Ward”法的第一阶段中。这样做是为了减少传递给层次聚类例程的表的大小。“近邻连接循环”算法指定以下内容:
混合目标
指定停止算法之前允许的最大聚类数。默认值为 400。
混合循环
指定停止算法之前执行的最小近邻连接循环数。默认值为 30。
混合初始 K
指定在近邻连接循环中使用的近邻的初始数目。默认值为 10。
“近邻连接循环”算法重复以下步骤:
1. 创建有利点 (VP) 树以高效查找最近邻。
2. 对于每个项,确定该项的 k 个最近邻。
3. 近邻对按距离排序。
4. 对于近邻对中距离最小的那一半,若项尚未在该循环中与另一个项连接,则连接每对中的项。连接的项成为下一个循环中的项。
5. 重复第 1 步 到第 4 步,直到达到最小循环数(混合循环)。
‒ 若项目数小于或等于“混合目标”,则停止。
‒ 若项目数大于“混合目标”,请继续重复第 1 步 到第 4 步,直到项目数小于或等于“混合目标”。
在每个循环中,若连接的对的数量较少,则将在下一个循环中增加最近邻数 k。若在前一循环中连接了足够数量的对,则在后一个循环中可以减少 k 的值。k 的值根据以下规则增减。
• 若连接的第 4 步 中的对少于 20%,则 k 的值加 10。
• 若连接的第 4 步 中的对少于 10%,则 k 的值加 20。
• 若连接的第 4 步 中的对少于 5%,则 k 的值加 30。
• 若连接的第 4 步 中的对超过 30%,则 k 的值减 10。