“多元嵌入”平台概述

“多元嵌入”平台执行降维操作，这会将高维空间中的点 {x1, x2,..., xn} 映射到低维空间中的点 {y1, y2,..., yn}。降维的目标是将点映射到低维，同时仍然保留高维数据中存在的重要信息。“多元嵌入”平台中使用的特定方法是“统一流形逼近与投影”(UMAP) 方法和“t 分布随机近邻嵌入”(t-SNE) 方法。UMAP 方法是一种流形学习方法，也称为非线性降维。该方法基于 Riemannian 几何和代数拓扑 (May, 1992)。t-SNE 方法是“随机近邻嵌入”(Hinton and Roweis, 2002) 的一种变化形式。

“多元嵌入”平台中提供的这两种降维方法都属于基于 k 近邻的学习算法。这些类型的算法首先找到每个点的近邻，以便在高维空间中创建 k 近邻图。然后，创建低维映射以将点从高维空间映射到低维空间，同时保持图的结构。

UMAP 方法概述

UMAP 方法首先找到每个点的近邻，然后创建 k 近邻图以构建拓扑结构。使用默认设置，每个点连接到至少一个其他点，即最近邻，并且在第 15 个近邻后不连接任何近邻。这之间的近邻形成了一个模糊区域。然后，通过将模糊区域的边缘合并在一起来创建高维数据的拓扑表示。有关如何合并边缘的详细信息，请参见 McInnes et al.(2018)。

为了创建低维映射，UMAP 使用梯度下降将高维拓扑表示与低维拓扑表示之间的交叉熵最小化 (McInnes et al., 2018)。UMAP 方法在尽量缩短计算时间的同时保留了数据的全局结构，并且能够处理非常大的数据集。

t-SNE 方法概述

t-SNE 方法基于点之间的配对相似性。每一配对相似性由两点是近邻的条件概率表示。在高维空间中，使用高斯分布将距离转换为条件概率。在低维映射中，使用自由度为 1 的 Student t 分布将距离转换为概率。t-SNE 方法因此而得名 (van der Maaten and Hinton, 2008)。

对于良好的低维映射，高维空间中 {xi, xj} 之间的配对相似性与低维空间中 {yi, yj} 之间的配对相似性相同。在这种假设下，t-SNE 方法找到了一个低维映射，该映射将高维相似性和低维相似性之间的差异最小化。使用 Kullback-Leibler 散度的一个版本来测量差异，然后使用梯度下降将其最小化。有关 t-SNE 方法的详细信息，请参见“多元嵌入”平台的统计详细信息。

需要更多信息？有问题？从 JMP 用户社区得到解答 (community.jmp.com).