基本分析 > 文本分析器 > 潜在语义分析 (SVD)
发布日期: 04/13/2021

Image shown here潜在语义分析 (SVD)

潜在语义分析侧重于计算文档词条矩阵 (DTM) 的偏奇异值分解 (SVD)。该分解将文本数据简化为可处理的维数来进行分析。潜在语义分析等价于执行主成分分析 (PCA)。

偏奇异值分解使用三个矩阵来近似 DTM:US V‘这三个矩阵的关系定义如下:

DTMU * S * V‘

nDoc 定义为 DTM 中的文档(行)数,nTerm 定义为 DTM 中的词条(列)数,nVec 定义为指定的奇异向量数。请注意,nVec 必须小于等于 min(nDoc, nTerm)。由此判定:U 是包含 DTM 的左侧奇异向量的 nDoc * nVec 矩阵。S 是维 nVec 的对角矩阵。S 中的对角线元素是 SVD 中的奇异值。V‘nVec * nTerm 矩阵。V‘ 中的行(或 V 中的列)是右奇异向量。

右侧奇异向量使用类似含义或主题领域捕获不同词条之间的关联。若三个词条倾向于出现在同一文档中,SVD 可能在 V‘ 中生成一个对这三个词条值都很大的奇异向量。U 奇异向量表示投影到这个新词条空间的文档。

潜在语义分析还捕获间接关联。若两个单词从不一起出现在同一文档中,但是它们通常出现在具有第三个单词的文档中,则 SVD 可以捕获一些这样的关联。若两个文档没有相同的单词但是包含在降维空间中有关联的单词,则它们映射到 SVD 输出中的类似向量。

SVD 将文档数据变换为固定维的向量空间,使它适用于所有类型的聚类、分类和回归技术。使用“保存”选项可以将这个向量空间导出到其他 JMP 平台去分析。

DTM 在进行奇异值分解前默认是中心化和统一尺度的,并且被 nDoc 减 1 除。该分析等价于 DTM 相关性矩阵的 PCA。

您还可以在“规格”窗口中指定“中心化”或“未中心化”。

若您指定“中心化”,则 DTM 在进行奇异值分解前是中心化的,并且被 nDoc 减 1 除。该分析等价于 DTM 协方差矩阵的 PCA。

若您指定“未中心化”,则 DTM 在进行奇异值分解前被 nDoc 除。该分析等价于未统一尺度的 DTM 的 PCA。

SVD 实施利用了 DTM 的稀疏,即使是在 DTM 中心化时。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).