JMP 13.2 联机文档
发现 JMP
使用 JMP
基本分析
基本绘图
刻画器指南
实验设计指南
拟合线性模型
预测和专业建模
多元方法
质量和过程方法
可靠性和生存方法
消费者研究
Scripting Guide
JSL Syntax Reference
基本分析
•
文本分析器
• 潜在语义分析 (SVD)
上一个
•
下一个
潜在语义分析 (SVD)
潜在语义分析是侧重计算文档词条矩阵 (DTM) 的偏奇异值分解 (SVD) 的一系列分析技术。该分解将文本数据简化为可处理的维数来进行分析。潜在语义分析类似于主成分分析。
奇异值分解使用三个矩阵来近似 DTM:
U
、
S
和
V‘
。这三个矩阵的关系定义如下:
DTM
≈
U
*
S
*
V‘
将
nDoc
定义为 DTM 中的文档(行)数,
nTerm
定义为 DTM 中的词条(列)数,
nVec
定义为指定的奇异向量数。请注意,
nVec
必须小于或等于 min(
nDoc, nTerm
)。它要求
U
是
nDoc
*
nVec
矩阵。
S
是维
nVec
的对角矩阵。
S
中的对角线元素是 SVD 中的奇异值。
V‘
是
nVec
*
nTerm
矩阵。
V‘
中的行是奇异向量。
奇异向量使用类似含义或主题领域捕获不同单词之间的关联。若三个单词倾向于出现在同一文档中,SVD 可能在
V‘
中生成一个对这三个单词值都很大的奇异向量。
U
奇异向量表示投影到这个新词条空间的文档。
潜在语义分析还捕获间接关联。若两个单词从不一起出现在同一文档中,但是它们通常出现在具有第三个单词的文档中,则 SVD 可以捕获一些这样的关联。若两个文档没有相同的单词但是包含在降维空间中有关联的单词,则它们映射到 SVD 输出中的类似向量。
SVD 将文档数据变换为固定维的向量空间,使它适用于所有类型的聚类、分类和回归技术。使用“保存”选项可以将这个向量空间导出到其他 JMP 平台去分析。
DTM 在进行奇异值分解前默认是中心化和统一尺度的。可以在“规格”窗口中关闭中心化和统一尺度。但是,SVD 实施充分利用了 DTM 的稀疏,即使是在 DTM 中心化时。