该示例使用“潜在类分析”平台分析 2005 年美国高中生调查的响应数据。该调查针对学生提出了各种有关健康风险行为的多项选择题。
在本例中,您根据学生对 12 个问题的响应来拟合潜在类模型,识别学生聚类。从多项选择调查问题中将响应分为两类(是/否),可以获得您分析的列。
1. 选择帮助 > 样本数据库,然后打开 Health Risk Survey.jmp。
2. 在“Health Risk Survey”数据表中,点击启动潜在类分析平台脚本旁边的绿色小三角。
该脚本选择 12 个所关注的列,打开“潜在类分析”启动窗口,并且输入这 12 个关注的列作为“Y”。
注意:要自行启动 LCA 平台,请选择“分析”>“聚类”>“潜在类分析”。
3. 在多达旁边的框中键入 5。
该选项针对 3 到 5 个(最多 5 个)聚类拟合潜在类模型。
4. 点击确定。
图 15.2 “聚类汇总”报表
“潜在类分析”分级显示项包括一个“聚类比较”报表和 3 个单独的“潜在类模型”报表。“潜在类模型”报表显示 3 个、4 个和 5 个聚类的模型。在“聚类比较”报表中,具有 5 个聚类的模型具有最小的 BIC 和 AIC,这表明该模型是这 3 个模型中的最佳拟合模型。您分析的是该模型。
5. 在“‘5’个聚类的潜在类模型”报表中,检查“参数估计值”下方的条形图。请注意以下事项:
‒ “聚类 1”对所有风险行为的大部分回答多为“No”。
‒ “聚类 2”对 13 岁前的 4 种风险行为的回答多为“Yes”。
‒ “聚类 3”对酒驾和过去 30 天内喝过至少 5 杯酒的很多回答多为“Yes”。
‒ “聚类 4”对除 13 岁之前的风险行为之外的其他大部分风险行为的回答多为“Yes”。
‒ “聚类 5”对大部分风险行为的回答为“Yes”最多。
使用该信息为聚类提供有意义的名称。
6. 点击“‘5’个聚类的潜在类模型”旁边的红色小三角,选择重命名聚类:
‒ 为“聚类 1”输入“低风险”。
‒ 为“聚类 2”输入“早期风险承担者”。
‒ 为“聚类 3”输入“嗜酒者”。
‒ 为“聚类 4”输入“后期高风险”。
‒ 为“聚类 5”输入“高风险”。
7. 点击确定。
8. 在出现的“JMP 警示”中点击确定。
注意:新聚类名称不会保存到脚本中。
图 15.3 部分“参数估计值”报表
Figure 15.3显示分析中前 8 个变量的参数估计值。新聚类名称出现在报表窗口中。
接下来,将聚类成员关系与人口统计学问题“您的年级”进行比较。
9. 点击“‘5’个聚类的潜在类模型”旁边的红色小三角,选择保存混合和聚类公式。
10. 选择图形 > 图形生成器。
11. 输入您的年级作为 X。
12. 输入最可能的聚类公式作为 Y。
13. 选择“马赛克图”元素。
14. 点击完成。
图 15.4 “年级-聚类成员关系”的马赛克图
观测到大多数响应者落入“低风险”聚类。标有“嗜酒者”的类随着年级增长,响应者人数增加。