发布日期: 09/18/2023

Image shown here数据处理选项

“函数数据分析器”平台中的“数据处理”红色小三角菜单包含以下选项:

清除

一个包含以下数据清除选项的子菜单:

删除零

删除为零值的观测。若数据中没有零,将显示警报,指示未找到零值。

删除值

显示一个规格窗口,允许您指定要从数据中删除的值。

删除选定项

删除一些观测,它们对应在数据表中选定的行。

删除未选定项

删除一些观测,它们对应在数据表中未选定的行。

警告:“删除选定项”和“删除未选定项”将删除行号。启用“自动重新计算”时,必须先添加或删除行,然后才能使用这些选项。

过滤 X

删除落在指定区间之外的 X 值。选择“过滤 X”选项时,必须指定“之下”和“之上”值。落在指定区间之外的 X 值不用在分析中。

过滤 Y

删除落在指定区间之外的 Y 值。选择“过滤 Y”选项时,必须指定“之下”和“之上”值。落在指定区间之外的 Y 值不用在分析中。

简化

使用以下方法之一简化 X 值上的数据:

使用“网格”选项卡将观测内插到值的公共网格中。您可以指定网格大小。默认情况下,网格大小是最长函数中的值的数目。这也是最大允许网格大小。

使用“箱”选项卡创建指定数量的箱,这些箱在唯一 X 值上均匀分布。对于每个函数(或“ID,函数”变量的水平),对箱中的观测进行平均,以生成对应箱水平的 Y 值。

使用“细”选项卡删除 X 值上的每个 N 观测,其中 N 由指定的细化率确定。针对每个函数(或“ID,函数”变量的水平)执行该操作。默认情况下,细化率为 2,这将删除每个函数中一半的观测值。

注意:“删除”选项将指定的观测从分析和建模报表中排除,但是观测在数据表中保持不变。

变换

一个包含以下选项的子菜单,用于变换数据:

中心

将输出中心化。

标准化

通过将数据中心化和统一尺度,使输出的均值为 0、方差为 1。

范围 0 至 1

将输出统一尺度到处于 0 到 1 的范围内。

平方根

通过计算输出的平方根来变换数据。输出值必须为非负数。

平方

通过计算输出的平方来变换数据。

对数

通过计算输出的自然对数来变换数据。

指数

通过计算输出的指数函数来变换数据。

求反

通过对输出求反来变换数据。

Logit

通过计算输出的 Logit 函数来变换数据。输出值必须介于 0 到 1 之间。

Log X

通过计算输入的自然对数来变换数据。

对齐

一个包含以下选项的子菜单,用于对齐输入数据:

行对齐

用行号替换输入值。

对齐最大值

使用观测的每个 ID 水平的最大输出值对齐函数。对于每个 ID 水平将与观测的最大输出值关联的输入值设置为零,基于观测的最大值和零之间的差值上移或下移其他输入值。

对齐最小值

使用观测的每个 ID 水平的最小输出值对齐函数。对于每个 ID 水平将与观测的最小输出值关联的输入值设置为零,基于观测的最小值和零之间的差值上移或下移其他输入值。

在 0 到 1 范围内对齐

对齐输出函数,使输入值的范围为 0 到 1。

提示:拟合 P 样条模型时,在 0 到 1 范围内对齐尤其有用。

按函数对齐

对齐输出函数,以使每个函数从输入值的总体最小值开始,到输入值的总体最大值结束。

动态时间规整

(仅当有多个函数时才可用。)使用动态时间规整 (DTW) 对齐输出函数。DTW 是一种函数对齐方法,它查找一个最佳规整来一起对齐两个或更多函数。选择 DTW 选项时,将显示“选择参考函数”窗口。使用它来选择参考函数。参考函数是其余函数要对齐到的函数。

选择一个参考函数并点击“确定”后,将显示一个规整函数图以及一个其余查询函数的列表。在规整函数图上,参考函数位于 y 轴,选定的查询函数位于 x 轴。与红色对角线 (y = x) 的偏差指示查询函数的输入已规整以便更好地对齐。

光谱

适用于光谱数据的以下选项的子菜单:

SNV

对数据应用“标准正态变量”方法。该方法通过对每个单独的函数(ID 变量的水平)进行中心化和统一尺度,使均值为 0,标准差为 1,从而将输出标准化。

MSC

对数据应用“多元散射校正”。对每个单独的函数(ID 变量的水平)拟合简单线性回归,其中的响应是函数的输出值,回归变量是均值函数的输出值。通过使用以下等式,原始输出值 yit 随后被新值 y*it 取代:

Equation shown here

其中 bi 是从函数 i 的简单线性回归获得的斜率。有关详细信息,请参见 Geladi et al (1985)。

Savitzky-Golay

提供用于使用 Savitzky-Golay 方法的选项。请参见 Savitzky and Golay (1964)。

注意:涉及 Savitzky-Golay 方法的所有选项都要求输入数据位于等间距网格上,并且至少一个函数包含 7 个或更多数据点。若数据不在等间距网格上,则在选择 Savitzky-Golay 选项时,数据将自动放置在等间距网格上。

过滤

对数据应用 Savitzky-Golay 过滤器。该方法将局部多项式拟合到域中的多个点集合。使用最小二乘法拟合多项式,每个拟合中的点数由带宽确定。选择该选项时,将对阶数为 0、1 和 2 且带宽多达为 10 的多项式进行多次拟合。根据 AIC 选择每个函数的最佳拟合模型。每个函数的多项式阶数和带宽可能不同。

一阶导数

仅使用 2 阶或 3 阶多项式对数据应用 Savitzky-Golay 过滤器,然后取一阶导数。由于过滤器拟合多项式,因此导数通过解析计算。

二阶导数

仅使用 3 阶多项式对数据应用 Savitzky-Golay 过滤器,然后取二阶导数。由于过滤器拟合多项式,因此导数通过解析计算。

基线校正

从每个单独的函数中减去基线函数。当存在要删除的已知趋势或基线时,使用基线校正。例如,这可能是由于测量数据的人为因素造成的。通常,信息包含在数据的峰值中,因此这些区域不包括在基线模型中。

当您选择该选项时,基线校正窗口随即显示。该窗口包含显示数据的选择图和一组用于指定基线模型的选项。基线校正窗口包含以下选项:

基线模型

为基线函数指定模型类型。您可以指定线性、二次、三次、双参数指数或三参数指数模型。

校正区域

指定从中减去基线函数的区域。您可以从整个函数区域或仅从用于构造基线模型的区域中减去基线。

基线区域

在选择图中添加或删除一对蓝色垂直线。这些线最初是彼此重叠的。移动这些线以指定不希望包含在基线模型中的数据区域。基线模型中不包括位于一对蓝线之间的数据区域。

定位点

在选择图中添加或删除红色垂直线。这条线指定强制输入基线模型的数据点。

目标函数

(仅当有多个函数时才可用。)支持您加载目标函数。

加载目标

显示一个窗口,该窗口支持您指定目标函数。目标函数用于曲线匹配,其中所有函数最好都看起来像目标函数,亦称参考函数或黄金曲线。

若指定目标函数,则来自该函数的数据不用于模型拟合。当您指定目标函数时,还有其他选项会添加到 FPC 刻画器中。请参见FPC 刻画器

注意:在执行任何其他预处理步骤之前,必须加载目标函数。

动态时间规整选项

标绘规整函数

显示或隐藏规整函数图。默认情况下处于打开状态。

保存距离矩阵

将距离矩阵保存到单独的数据表。距离矩阵对于函数聚类很有用。距离矩阵数据表包含一个层次聚类脚本。

保存规整函数

将规整函数保存到单独的数据表。数据表的每行包含进行了 DTW 调整的输入变量、原始输入变量和 ID 变量。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).