多元方法 > 多元嵌入 > 启动“多元嵌入”平台
发布日期: 09/18/2023

Image shown here启动“多元嵌入”平台

通过选择分析 > 多元方法 > 多元嵌入来启动“多元嵌入”平台。

图 11.3 “多元嵌入”启动窗口 

Multivariate Embedding Launch Window

有关“选择列”红色小三角菜单中选项的详细信息,请参见《使用 JMP》中的““列过滤器”菜单”。“多元嵌入”启动窗口包含以下选项:

Y,列

指定表示要映射到低维空间的高维数据的列。

依据

一列,其水平定义不同的分析。对于指定列的每个水平,都使用您已经指定的其他变量分析相应行。结果显示在单独的表和报表中。若分配了多个“依据”变量,则为“依据”变量水平的每个可能组合生成单独分析。

方法

指定将数据映射到低维空间的方法。在 UMAP 和 t-SNE 之间进行选择。

输出维

指定低维空间中的成分或维的数量。成分数必须大于或等于 2。

随机种子

指定一个随机种子,以便将来启动该平台时重现结果。

标准化

在计算用于降维的距离之前,在内部对数据进行标准化。

缺失值补缺

指定数据中使用多元奇异值分解 (SVD) 方法插补的缺失值。

注意:若您的数据包含缺失值且未选择“缺失值插补”选项,则在启动中点击“确定”后,将显示插补窗口。若数据中的每一行至少包含一个缺失值,则可以选择对缺失值进行插补、更改 Y 列的选择或取消分析。若数据中的某些行不包含缺失值,则可以选择对缺失值进行插补,继续而不插补或取消分析。

UMAP 选项

包含 UMAP 算法中使用的选项。有关在 UMAP 算法中如何使用以下参数的详细信息,请参见 McInnes et al.(2018)。

近邻数

指定为每个数据点找到的近邻数。指定的近邻数目越小,UMAP 算法就越集中于数据的局部结构。随着近邻数的增加,UMAP 算法会更多地捕获数据的全局结构。“近邻数”值的范围可介于 2 到数据中观测数的四分之一之间。默认值为 15。

时期数

指定优化低维表示时要使用的训练时期数。这是算法在整个训练数据中工作的次数。默认值为 500。

学习率

指定计算中的学习率的值。默认值为 1。学习率影响模型适应问题的速度。若学习率太大,算法可能会错过最优解。若学习率太小,算法可能会需要较长时间收敛。

提示:若算法不收敛或不生成具有极值的嵌入坐标,则考虑调整学习率的值。

最小距离

指定低维空间中的各点之间的最小标准化距离。该值可介于 0 到 0.99 之间。默认值为 0.01。

局部连通性

指定假定在局部级别连接的最近邻的数量。默认值为 1,这假设高维空间中的每个点都至少有一个与其连接的其他近邻。

A

指定控制嵌入优化算法的参数之一。若该值被指定为 0 或负数,则在算法中通过非线性最小二乘法过程计算 a

b

指定控制嵌入优化算法的参数之一。若该值被指定为 0 或负数,则在算法中通过非线性最小二乘法过程计算 b

负抽样率

指定在查找数据的低维表示时,每个正 1-单纯形样本要使用的负 1-单纯形样本数。“负抽样率”值可介于 2 到 20 之间。默认值为 5。

批处理模式,若数目大于

指定当样本大小大于指定数时,使用多线程优化嵌入坐标。默认值为 4096。

最近邻方法

指定用于查找最近邻的方法。

默认

根据样本大小和变量数选择最近邻方法。若观测数大于 4096 且变量数小于或等于 1500,或者“距离量度”未设置为“欧氏”距离,则默认值为“ANNOY”。若非如此,默认值为“VPTree”。

VPTree(精确)

使用有利点 (VP) 树查找一组最近邻。

ANNOY(近似)

使用“近似最近邻”(ANN) 方法查找一组最近邻 (Bernhardsson, 2013)。这是两种用于大型数据集的方法中较快速的一种,但结果可能不如 VPTree 方法准确。

距离量度

(仅当将“ANNOY”指定为“最近邻方法”时才适用。)指定用于计算最近邻之间距离的量度。用于距离量度的选项包括“欧氏”、“角”、“Hamming”和“Manhattan”。默认情况下,“欧氏”被指定为“距离量度”。

提示:若数据包含二进制或分类变量,则非欧氏距离量度可能更合适。

梯度下降方法

指定优化算法中使用的梯度下降方法。

SGD

使用“随机梯度下降”算法 (Saad, 1998)。这是默认方法。

ADAM

使用“自适应矩估计”方法 (Kingma, 2014)。仅当使用多线程时该选项才可用。

t-SNE 选项

包含 t-SNE 算法中使用的选项。“多元嵌入”平台的统计详细信息中对其中很多选项进行了讨论。

稀疏

指定在计算高维空间中的条件概率时是否使用稀疏方法。稀疏方法支持计算高维数据。

困惑度

指定困惑度参数的值,该值与计算样本的相似性有关。困惑度参数的值应介于 5 和 50 之间,并且不应大于样本大小的八分之一。默认值是 30 或样本大小的八分之一中较小的那一个。

最多迭代次数

指定计算中使用的最大迭代次数。

初始主成分维度

指定初始随机主成分分析步骤中保留的维数。默认值为 50。

收敛准则

指定用于测量收敛程度的值。默认值为 1e-8。

初始尺度

指定推导出的成分的初始尺度。默认值为 0.0001。

Eta

指定计算中的学习率的值。默认值为 200。

膨胀迭代

指定迭代次数,在该次数之后就不再放大动量值。默认值为 250。

保持对话框打开

运行分析后保持启动窗口打开,以便您更新选项并重新运行分析。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).