本例使用 iris.jmp 样本数据表,其中包括三种鸢尾花的萼片长度、萼片宽度、花瓣长度和花瓣宽度的测量值。
1. 选择帮助 > 样本数据库,然后打开 Iris.jmp。
2. 选择分析 > 聚类 > K 均值聚类。
3. 选择萼片长度、萼片宽度、花瓣长度和花瓣宽度,然后点击 Y,列。
4. 点击确定。
5. 从“控制面板”上的“方法”菜单中选择自组织图。
6. 设置行数等于 1,列数等于 2。
7. 点击执行。
8. 打开“控制面板”报表。
9. 设置行数等于 1,列数等于 3。
10. 点击执行。
11. 打开“控制面板”报表。
12. 设置行数等于 2,列数等于 2。
13. 点击执行。
SOM 聚类比较
“聚类比较”报表显示在报表窗口顶部。最佳拟合由最高 CCC 值确定。请注意:给出最大 CCC 的聚类编号为 3,即物种数。
14. 滚动到“1 x 3 的 SOM 网格”报表。我们可以看到该分类不完美;每个聚类应表示每个物种,每个聚类有 50 行。
Iris.jmp 的“自组织图”报表
15. 在该数据表中,选择物种列并选择行 > 按列设定颜色或标记。
16. 选择“标记”下面的经典选项。
17. 点击确定。
18. 点击“1 x 3 的 SOM 网格”旁边的红色小三角菜单,然后选择双标图。
SOM 双标图
我们可以看到“Cluster 3”中的所有行都正确标识为 setosa 物种。另外两个物种,virginica 和 versicolor 略有重叠,可能彼此混淆。