将 nDoc 定义为 DTM 中的文档(行)数,nTerm 定义为 DTM 中的词条(列)数,nVec 定义为指定的奇异向量数。请注意,nVec 必须小于或等于 min(nDoc, nTerm)。由此判定:U 是包含 DTM 的左侧奇异向量的 nDoc * nVec 矩阵。S 是维 nVec 的对角矩阵。S 中的对角线元素是 SVD 中的奇异值。V‘ 是 nVec * nTerm 矩阵。V‘ 中的行(或 V 中的列)是右侧奇异向量。
右侧奇异向量使用类似含义或主题领域捕获不同词条之间的关联。若三个词条倾向于出现在同一文档中,SVD 可能在 V‘ 中生成一个对这三个词条值都很大的奇异向量。U 奇异向量表示投影到这个新词条空间的文档。
DTM 在进行奇异值分解前默认是中心化和统一尺度的,并且被 nDoc 减 1 除。该分析等价于 DTM 相关性矩阵的 PCA。
您还可以在“规格”窗口中指定“中心化”或“未中心化”。若您指定“中心化”,则 DTM 在进行奇异值分解前是中心化的,并且被 nDoc 减 1 除。该分析等价于 DTM 协方差矩阵的 PCA。若您指定“未中心化”,则 DTM 在进行奇异值分解前被 nDoc 除。该分析等价于未统一尺度的 DTM 的 PCA。