潜在语义分析侧重于计算文档词条矩阵 (DTM) 的偏奇异值分解 (SVD)。该分解将文本数据简化为可处理的维数来进行分析。潜在语义分析等价于执行主成分分析 (PCA)。
偏奇异值分解使用三个矩阵来近似 DTM:U、S 和 V‘。这三个矩阵的关系定义如下:
DTM ≈ U * S * V‘
将 nDoc 定义为 DTM 中的文档(行)数,nTerm 定义为 DTM 中的词条(列)数,nVec 定义为指定的奇异向量数。请注意,nVec 必须小于等于 min(nDoc, nTerm)。由此判定:U 是包含 DTM 的左侧奇异向量的 nDoc * nVec 矩阵。S 是维 nVec 的对角矩阵。S 中的对角线元素是 SVD 中的奇异值。V‘ 是 nVec * nTerm 矩阵。V‘ 中的行(或 V 中的列)是右奇异向量。
右侧奇异向量使用类似含义或主题领域捕获不同词条之间的关联。若三个词条倾向于出现在同一文档中,SVD 可能在 V‘ 中生成一个对这三个词条值都很大的奇异向量。U 奇异向量表示投影到这个新词条空间的文档。
潜在语义分析还捕获间接关联。若两个单词从不一起出现在同一文档中,但是它们通常出现在具有第三个单词的文档中,则 SVD 可以捕获一些这样的关联。若两个文档没有相同的单词但是包含在降维空间中有关联的单词,则它们映射到 SVD 输出中的类似向量。
SVD 将文档数据变换为固定维的向量空间,使它适用于所有类型的聚类、分类和回归技术。使用“保存”选项可以将这个向量空间导出到其他 JMP 平台去分析。
DTM 在进行奇异值分解前默认是中心化和统一尺度的,并且被 nDoc 减 1 除。该分析等价于 DTM 相关性矩阵的 PCA。
您还可以在“规格”窗口中指定“中心化”或“未中心化”。
• 若您指定“中心化”,则 DTM 在进行奇异值分解前是中心化的,并且被 nDoc 减 1 除。该分析等价于 DTM 协方差矩阵的 PCA。
• 若您指定“未中心化”,则 DTM 在进行奇异值分解前被 nDoc 除。该分析等价于未统一尺度的 DTM 的 PCA。
SVD 实施利用了 DTM 的稀疏,即使是在 DTM 中心化时。