“多元嵌入”平台执行降维操作,这会将高维空间中的点 {x1, x2,..., xn} 映射到低维空间中的点 {y1, y2,..., yn}。降维的目标是将点映射到低维,同时仍然保留高维数据中存在的重要信息。“多元嵌入”平台中使用的特定方法是“统一流形逼近与投影”(UMAP) 方法和“t 分布随机近邻嵌入”(t-SNE) 方法。UMAP 方法是一种流形学习方法,也称为非线性降维。该方法基于 Riemannian 几何和代数拓扑 (May, 1992)。t-SNE 方法是“随机近邻嵌入”(Hinton and Roweis, 2002) 的一种变化形式。
“多元嵌入”平台中提供的这两种降维方法都属于基于 k 近邻的学习算法。这些类型的算法首先找到每个点的近邻,以便在高维空间中创建 k 近邻图。然后,创建低维映射以将点从高维空间映射到低维空间,同时保持图的结构。
UMAP 方法首先找到每个点的近邻,然后创建 k 近邻图以构建拓扑结构。使用默认设置,每个点连接到至少一个其他点,即最近邻,并且在第 15 个近邻后不连接任何近邻。这之间的近邻形成了一个模糊区域。然后,通过将模糊区域的边缘合并在一起来创建高维数据的拓扑表示。有关如何合并边缘的详细信息,请参见 McInnes et al.(2018)。
为了创建低维映射,UMAP 使用梯度下降将高维拓扑表示与低维拓扑表示之间的交叉熵最小化 (McInnes et al., 2018)。UMAP 方法在尽量缩短计算时间的同时保留了数据的全局结构,并且能够处理非常大的数据集。
t-SNE 方法基于点之间的配对相似性。每一配对相似性由两点是近邻的条件概率表示。在高维空间中,使用高斯分布将距离转换为条件概率。在低维映射中,使用自由度为 1 的 Student t 分布将距离转换为概率。t-SNE 方法因此而得名 (van der Maaten and Hinton, 2008)。
对于良好的低维映射,高维空间中 {xi, xj} 之间的配对相似性与低维空间中 {yi, yj} 之间的配对相似性相同。在这种假设下,t-SNE 方法找到了一个低维映射,该映射将高维相似性和低维相似性之间的差异最小化。使用 Kullback-Leibler 散度的一个版本来测量差异,然后使用梯度下降将其最小化。有关 t-SNE 方法的详细信息,请参见“多元嵌入”平台的统计详细信息。