奇异值分解使用三个矩阵来近似 DTM:USV‘。这三个矩阵的关系定义如下:
DTMU * S * V‘
nDoc 定义为 DTM 中的文档(行)数,nTerm 定义为 DTM 中的词条(列)数,nVec 定义为指定的奇异向量数。请注意,nVec 必须小于或等于 min(nDoc, nTerm)。它要求 UnDoc * nVec 矩阵。S 是维 nVec 的对角矩阵。S 中的对角线元素是 SVD 中的奇异值。V‘nVec * nTerm 矩阵。V‘ 中的行是奇异向量。
奇异向量使用类似含义或主题领域捕获不同单词之间的关联。若三个单词倾向于出现在同一文档中,SVD 可能在 V‘ 中生成一个对这三个单词值都很大的奇异向量。U 奇异向量表示投影到这个新词条空间的文档。