以下选项介绍在计算多元距离时使用的数据格式。
如往常的数据
矩形数据,每个观测对应一行,每个变量对应一列。
被汇总的数据
按一个或多个标识列的水平汇总的数据。当您选择该选项时,启动窗口中会出现“对象 ID”文本框。指定标识列作为“对象 ID”。被汇总的数据选项计算水平均值并将这些均值视为输入数据。
数据为距离矩阵
由观测之间的距离组成的数据。对于 n 个观测,距离表应有 n 行和 n + 1 列。有一列(通常为第一列)必须包含 n 个观测的唯一标识符。其余列包含该观测和 n 个观测之间的距离。请注意以下几点:
‒ 表的对角线元素应为 0 或缺失,因为点与其本身之间的距离为 0。不为 0 或缺失的值会视为 0,并且报表中会显示一条注释。
‒ 距离列可以是对称方矩阵,也可以是上三角或下三角矩阵并且缺失条目出现在下部或上部。若距离按方矩阵给出,则表不对称时报表中会出现一条警告。
‒ 您可以先开始使用不同的数据结构,然后保存距离矩阵。请参见保存距离矩阵。
当您选择数据为距离矩阵选项时,输入距离列作为“Y,列”,标识符列作为“标签”。“标签”列必须具有“字符型”数据类型。有关示例,请参见距离矩阵的示例。
数据被堆叠
具有单个关注响应且每个对象对应多行的数据。
当您选择数据被堆叠选项时,启动窗口中会显示“特性 ID”和“对象 ID”文本框。
‒ 输入单个列作为“Y,列”。
‒ 输入描述“Y,列”变量分组的列作为“特性 ID”。若仅输入两列且选择“添加空间测度”,则可以在聚类分析中添加要使用的空间成分。请参见添加空间测度。
‒ 输入对象的标识列作为“对象 ID”。
执行的分析等价于按“特性 ID”列拆分“Y,列”变量然后在不标准化响应列的情况下执行层次聚类。
提示:将该选项与“添加空间测度”选项一起使用可执行二维空间聚类。例如,晶片数据经常使用每个裸片对应一行的方式进行记录。关注点集中在晶片聚类。请参见使用“空间测度”进行晶片次品分类的示例。
警告:因为有单个测量值列,“标准化数据”选项不适用于堆叠数据。
当您使用被汇总的数据或数据被堆叠数据结构时,JMP 警示没有足够的非缺失数据很难理解。下列情形会出现该警示:
• 对于如往常的数据,当所有行或除一行之外的所有行有至少一个“Y,列”变量的值缺失时。
• 对于被汇总的数据,当针对“对象 ID”列汇总您的数据,所有行或除一行之外的所有行有至少一个汇总“Y,列”变量的值缺失时。要查看“聚类”平台正在分析的数据结构,选择“表 > 汇总”,输入“对象 ID”列作为“分组”,“Y,列”变量作为“统计量 > 均值”。
• 对于数据被堆叠,当针对“特性 ID”列拆分您的数据,所有行或除一行之外的所有行有至少一个拆分“Y,列”变量的值缺失时。要查看“聚类”平台正在分析的数据结构,选择表 > 拆分,输入“特性 ID”列作为“拆分依据”,“Y,列”变量作为“拆分列”,“对象 ID”列作为“分组”。