nDocをDTMの文書数(行数)、nTermをDTMの単語数(列数)、nVecを指定された特異値ベクトルの数とします。なお、nVecは、nDocとnTermのうちの小さい方の値以下になります。UはnDoc×nVecの行列で、各列が文書単語行列の左特異値ベクトルになっています。Sは、次元数がnVecの対角行列で、 Sの対角成分が、文書単語行列の特異値となります。V‘は、nVec× nTermの行列です。SV‘の行(またはVSの列)は、右特異値ベクトルに特異値を掛けたものです。
右特異ベクトル(に特異値を掛けたもの)は、似たような意味やトピックをもつ単語間の関連を捉えます。たとえば、3つの単語が同じ文書でよく一緒に使用される場合は、SV‘において、その3つの単語に対応する数値がどれも大きくなります。一方、左特異ベクトルUSは、特異値分解で得られた右特異ベクトルに文書を射影したものです。
デフォルトでは、文書単語行列を中心化、尺度化して、nDoc-1で割ってから、特異値分解が実行されます。この分析は、文書単語行列の相関行列に対して主成分分析を実行することと同じです。
特異値分解の「設定」ウィンドウで、[中心化]または[中心化しない]を選択することもできます。[中心化]を選択すると、文書単語行列を中心化して、nDoc-1で割ってから、特異値分解が実行されます。この分析は、文書単語行列の共分散行列に対して主成分分析を実行することと同じです。[中心化しない]を選択すると、文書単語行列をnDocで割ってから、特異値分解が実行されます。この分析は、尺度化しない文書単語行列に対して主成分分析を実行することと同じです。