本节说明在“潜在类分析”平台中拟合的潜在类模型。有关潜在类模型的详细信息,请参见 Collins and Lanza (2010) 和 Agresti (2013)。
注意:在“文本分析器”平台中使用的 LCA 算法利用文档词条矩阵的稀疏性。因为这个原因,“文本分析器”平台中的 LCA 结果与“潜在类分析”平台中的结果不完全一致。
用 j = 1,..., J 表示响应的观测列。它们是“潜在类分析”平台启动窗口中的 Y 列。列 j 的水平数表示为 Rj。
J 个变量的多维列联表包含 W = R1*...*RJ 个单元格。其中的每一个单元格依据其针对 J 个变量的响应模式来定义。因此,每个响应模式是形式为 y = y1,..., yj 的 J-长度向量。将 Y 定义为所有响应模式视为行向量的 J x W 数组。Y 中的每个元素 yw, 都具有概率 Pr(yw)。这些概率之和为 1:
考虑以下符号:
• C 是潜在类模型中的聚类数。
• γc 是聚类 c 中成员关系的概率。(γc 是潜在类流行度。)这些参数之和为 1。
• rj,k 是第 j 个响应的第 k 个水平。
• ρj,k|c 是在属于类 c 的条件下,在列 j 中观测到响应 rj,k 的概率。(ρj,k|c 是项目响应概率。)对于给定的聚类和响应变量 j,ρj,k|c 之和为 1。
• I(yj = rj,k) 是指标函数,当 yj 响应为第 j 个响应的第 k 个水平时该函数等于 1,其他情况下该函数等于 0。
观测到响应 yw = y1,..., yj 的特定向量的概率是在 C 个潜在类下观测到该响应向量的条件概率之和:
该方程是您从“潜在类分析”红色小三角菜单中选择“保存混合和聚类公式”选项时保存至数据表的 Prob Formula Cluster 公式的分母。Prob Formula Cluster 列中的公式给出 Pr(聚类 = c | yw),其等于 Pr(yw, 聚类 = c) / Pr(yw)。
潜在类模型的 γ 和 ρ 参数使用迭代期望值最大化 (EM) 算法估计得到。潜在类模型中的唯一参数个数定义如下: