本例使用 iris.jmp 样本数据表,其中包括三种鸢尾花的萼片长度、萼片宽度、花瓣长度和花瓣宽度的测量值。
1. 选择帮助 > 样本数据库,然后打开 Iris.jmp。
2. 选择分析 > 聚类 > K 均值聚类。
3. 选择萼片长度、萼片宽度、花瓣长度和花瓣宽度,然后点击 Y,列。
4. 点击确定。
5. 从“控制面板”上的“方法”菜单中选择自组织图。
6. 设置行数等于 1,列数等于 2。
7. 点击执行。
8. 打开“控制面板”报表。
9. 设置行数等于 1,列数等于 3。
10. 点击执行。
11. 打开“控制面板”报表。
12. 设置行数等于 2,列数等于 2。
13. 点击执行。
图 13.10 SOM 聚类比较
“聚类比较”报表显示在报表窗口顶部。最佳拟合由最高 CCC 值确定。请注意:给出最大 CCC 的聚类编号为 3,即物种数。
14. 滚动到“1 x 3 的自组织图网格”报表。我们可以看到该分类不完美;每个聚类应表示每个物种,每个聚类有 50 行。
图 13.11 Iris.jmp 的“自组织图”报表
15. 在该数据表中,选择物种列并选择行 > 按列设定颜色或标记。
16. 选择“标记”下面的经典选项。
17. 点击确定。
18. 点击“1 x 3 的自组织图网格”旁边的红色小三角菜单,然后选择双标图。
图 13.12 SOM 双标图
我们可以看到“聚类 3”中的所有行都正确标识为 setosa 物种。另外两个物种,virginica 和 versicolor 略有重叠,可能彼此混淆。