通过选择分析 > 多元方法 > 多元嵌入来启动“多元嵌入”平台。
图 11.3 “多元嵌入”启动窗口
有关“选择列”红色小三角菜单中选项的详细信息,请参见《使用 JMP》中的““列过滤器”菜单”。“多元嵌入”启动窗口包含以下选项:
Y,列
指定表示要映射到低维空间的高维数据的列。
依据
一列,其水平定义不同的分析。对于指定列的每个水平,都使用您已经指定的其他变量分析相应行。结果显示在单独的表和报表中。若分配了多个“依据”变量,则为“依据”变量水平的每个可能组合生成单独分析。
方法
指定将数据映射到低维空间的方法。在 UMAP 和 t-SNE 之间进行选择。
输出维
指定低维空间中的成分或维的数量。成分数必须大于或等于 2。
随机种子
指定一个随机种子,以便将来启动该平台时重现结果。
标准化
在计算用于降维的距离之前,在内部对数据进行标准化。
缺失值补缺
指定数据中使用多元奇异值分解 (SVD) 方法插补的缺失值。
注意:若您的数据包含缺失值且未选择“缺失值插补”选项,则在启动中点击“确定”后,将显示插补窗口。若数据中的每一行至少包含一个缺失值,则可以选择对缺失值进行插补、更改 Y 列的选择或取消分析。若数据中的某些行不包含缺失值,则可以选择对缺失值进行插补,继续而不插补或取消分析。
UMAP 选项
包含 UMAP 算法中使用的选项。有关在 UMAP 算法中如何使用以下参数的详细信息,请参见 McInnes et al.(2018)。
近邻数
指定为每个数据点找到的近邻数。指定的近邻数目越小,UMAP 算法就越集中于数据的局部结构。随着近邻数的增加,UMAP 算法会更多地捕获数据的全局结构。“近邻数”值的范围可介于 2 到数据中观测数的四分之一之间。默认值为 15。
时期数
指定优化低维表示时要使用的训练时期数。这是算法在整个训练数据中工作的次数。默认值为 500。
学习率
指定计算中的学习率的值。默认值为 1。学习率影响模型适应问题的速度。若学习率太大,算法可能会错过最优解。若学习率太小,算法可能会需要较长时间收敛。
提示:若算法不收敛或不生成具有极值的嵌入坐标,则考虑调整学习率的值。
最小距离
指定低维空间中的各点之间的最小标准化距离。该值可介于 0 到 0.99 之间。默认值为 0.01。
局部连通性
指定假定在局部级别连接的最近邻的数量。默认值为 1,这假设高维空间中的每个点都至少有一个与其连接的其他近邻。
A
指定控制嵌入优化算法的参数之一。若该值被指定为 0 或负数,则在算法中通过非线性最小二乘法过程计算 a。
b
指定控制嵌入优化算法的参数之一。若该值被指定为 0 或负数,则在算法中通过非线性最小二乘法过程计算 b。
负抽样率
指定在查找数据的低维表示时,每个正 1-单纯形样本要使用的负 1-单纯形样本数。“负抽样率”值可介于 2 到 20 之间。默认值为 5。
批处理模式,若数目大于
指定当样本大小大于指定数时,使用多线程优化嵌入坐标。默认值为 4096。
最近邻方法
指定用于查找最近邻的方法。
默认
根据样本大小和变量数选择最近邻方法。若观测数大于 4096 且变量数小于或等于 1500,或者“距离量度”未设置为“欧氏”距离,则默认值为“ANNOY”。若非如此,默认值为“VPTree”。
VPTree(精确)
使用有利点 (VP) 树查找一组最近邻。
ANNOY(近似)
使用“近似最近邻”(ANN) 方法查找一组最近邻 (Bernhardsson, 2013)。这是两种用于大型数据集的方法中较快速的一种,但结果可能不如 VPTree 方法准确。
距离量度
(仅当将“ANNOY”指定为“最近邻方法”时才适用。)指定用于计算最近邻之间距离的量度。用于距离量度的选项包括“欧氏”、“角”、“Hamming”和“Manhattan”。默认情况下,“欧氏”被指定为“距离量度”。
提示:若数据包含二进制或分类变量,则非欧氏距离量度可能更合适。
梯度下降方法
指定优化算法中使用的梯度下降方法。
SGD
使用“随机梯度下降”算法 (Saad, 1998)。这是默认方法。
ADAM
使用“自适应矩估计”方法 (Kingma, 2014)。仅当使用多线程时该选项才可用。
t-SNE 选项
包含 t-SNE 算法中使用的选项。“多元嵌入”平台的统计详细信息中对其中很多选项进行了讨论。
稀疏
指定在计算高维空间中的条件概率时是否使用稀疏方法。稀疏方法支持计算高维数据。
困惑度
指定困惑度参数的值,该值与计算样本的相似性有关。困惑度参数的值应介于 5 和 50 之间,并且不应大于样本大小的八分之一。默认值是 30 或样本大小的八分之一中较小的那一个。
最多迭代次数
指定计算中使用的最大迭代次数。
初始主成分维度
指定初始随机主成分分析步骤中保留的维数。默认值为 50。
收敛准则
指定用于测量收敛程度的值。默认值为 1e-8。
初始尺度
指定推导出的成分的初始尺度。默认值为 0.0001。
Eta
指定计算中的学习率的值。默认值为 200。
膨胀迭代
指定迭代次数,在该次数之后就不再放大动量值。默认值为 250。
保持对话框打开
运行分析后保持启动窗口打开,以便您更新选项并重新运行分析。