发布日期: 08/07/2020

数据结构

以下选项介绍在计算多元距离时使用的数据格式。

如往常的数据

矩形数据,每个观测对应一行,每个变量对应一列。

被汇总的数据

按一个或多个标识列的水平汇总的数据。当您选择该选项时,启动窗口中会出现“对象 ID”文本框。指定标识列作为“对象 ID”。被汇总的数据选项计算水平均值并将这些均值视为输入数据。

数据为距离矩阵

由观测之间的距离组成的数据。对于 n 个观测,距离表应有 n 行和 n + 1 列。有一列(通常为第一列)必须包含 n 个观测的唯一标识符。其余列包含该观测和 n 个观测之间的距离。请注意以下事项:

表的对角线元素应为 0 或缺失,因为点与其本身之间的距离为 0。不为 0 或缺失的值会视为 0,并且报表中会显示一条注释。

距离列可以是对称方矩阵,也可以是上三角或下三角矩阵并且缺失条目出现在下部或上部。若距离按方矩阵给出,则表不对称时报表中会出现一条警告。

您可以先开始使用不同的数据结构,然后保存距离矩阵。请参见保存距离矩阵

当您选择数据为距离矩阵选项时,输入距离列作为“Y,列”,标识符列作为“标签”。“标签”列必须具有“字符型”数据类型。有关示例,请参见距离矩阵的示例

数据被堆叠

具有单个关注响应且每个对象对应多行的数据。

当您选择数据被堆叠选项时,启动窗口中会显示“特性 ID”和“对象 ID”文本框。

输入单个列作为“Y,列”。

输入描述“Y,列”变量分组的列作为“特性 ID”。若仅输入两列且选择“添加空间测度”,则可以在聚类分析中添加要使用的空间成分。请参见添加空间测度

输入对象的标识列作为“对象 ID”。

执行的分析等价于按“特性 ID”列拆分“Y,列”变量然后在不标准化响应列的情况下执行层次聚类。

提示:将该选项与“添加空间测度”选项一起使用可执行二维空间聚类。例如,晶片数据经常使用每个裸片对应一行的方式进行记录。关注点集中在晶片聚类。请参见使用“空间测度”进行晶片次品分类的示例

警告:因为有单个测量值列,“标准化数据”选项不适用于堆叠数据。

没有足够的非缺失数据警示

当您使用被汇总的数据数据被堆叠数据结构时,JMP 警示没有足够的非缺失数据很难理解。下列情形会出现该警示:

对于如往常的数据,当所有行或除一行之外的所有行有至少一个“Y,列”变量的值缺失时。

对于被汇总的数据,当针对“对象 ID”列汇总您的数据,所有行或除一行之外的所有行有至少一个汇总“Y,列”变量的值缺失时。要查看“聚类”平台正在分析的数据结构,选择“表 > 汇总”,输入“对象 ID”列作为“分组”,“Y,列”变量作为“统计量 > 均值”。

对于数据被堆叠,当针对“特性 ID”列拆分您的数据,所有行或除一行之外的所有行有至少一个拆分“Y,列”变量的值缺失时。要查看“聚类”平台正在分析的数据结构,选择表 > 拆分,输入“特性 ID”列作为“拆分依据”,“Y,列”变量作为“拆分列”,“对象 ID”列作为“分组”。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).