在公式中可以使用两种统计函数:
• 函数名称具有前缀 Col。这些函数计算一列数字或涉及列的表达式的统计值。
• Mean、Std Dev、Number、Sum、Quantile、Maximum、Minimum 和 N Missing 函数。这些函数针对一些列或参数求值。针对一系列参数的每行计算统计值。您可以点击“公式编辑器”小键盘上的插入键 () 或键入逗号来将参数添加到接受多个参数的函数。有多个相邻参数时,选择函数和第一个参数,然后按 Shift 键并点击组中的最后一个参数。这些函数将自动随完整列表一起显示。
注意:统计函数中忽略缺失值。
有关语法的详细信息,请参见《JSL Syntax Reference》中的Statistical Functions。
返回当前行的累积和。Col Cumulative Sum 支持 By 列,无需对这些列进行排序。
计算参数所标识的数值的均值(或算术平均值)。公式 Col Mean(age) 计算 age 列中所有非缺失值的平均值。
返回基于当前行的给定区间的移动平均值。忽略缺失值。
测量参数所标识的分布针对均值的散布程度。在正态分布中,大约分布的 68% 位于均值两侧的一个标准差内。大约分布的 95% 位于均值两侧的两个标准差内。大约分布的 99% 位于均值两侧的三个标准差内。
对指定列中的非缺失值数进行计数。当单元格没有分配值或为无效运算的结果(如被零除)时,会出现缺失数值。缺失值在电子表格上显示为缺失值标记 (•)。缺失字符值为空字符串。在行状态列的公式中,排除的行状态特征将视为缺失值。
对指定列中的缺失值数进行计数。当单元格没有分配值或为无效运算的结果(如被零除)时,会出现缺失数值。缺失值在数据网格中显示为缺失值字符 (•)。缺失字符值为空字符串。
计算数值参数中值的和。忽略缺失值。
获取数值参数的最小值。Col Minimum 忽略缺失值。Col Maximum 获取数值列参数的最大值并忽略缺失值。
计算值的特定百分比小于等于该值的值。例如,计算为 50% 分位数(也称为中位数)的值大于等于 50% 的数据。一半数据值小于第 50 分位数。
Col Quantile 函数的分位数参数表示除以 100 的分位数百分比。25% 分位数也称为下四分位数,对应于 p = 0.25,75% 分位数称为上四分位数,对应于 p = 0.75。
“公式编辑器”通过按升序排列值计算一列包含 n 个非缺失值的分位数。排序的列值下标 y1、y2,...,yn 表示按升序排列的秩。
使用公式 p(n + 1) 计算第 p 分位数值,其中 p 为百分比值,n 为非缺失值的总数。若 p(n+1) 为整数,则分位数值为 yp(n+1)。若 p(n + 1) 不是整数,则通过以下方式将该值插值:结果的整数部分赋给 i 并将小数部分赋给 f,然后应用公式 (1 – f)yi + (f)yi+1。
例如,假定列包含值 2, 4, 6, 8, 10, 12, 14, 16, 18 和 20。50% 分位数的计算公式为:0.5(10 + 1) = 5.5。
由于结果为小数,则将 50% 分位数值插值为:
(1 – 0.5) x 10 + (0.5) x 12 = (0.5)10 + (0.5)12 = 6 + 5 = 11
以下是示例 ColQuantile 公式:
• ColQuantile(age, 1) 计算最大年龄。
• ColQuantile(age, 0.75) 计算上四分位数年龄。
• ColQuantile(age, 0.5) 计算中位数年龄。
• ColQuantile(age, 0.25) 计算下四分位数年龄。
• ColQuantile(age, 0) 计算最小年龄。
ColQuantile 参数可以是求值结果为 0 到 1(含端点)之间的值的任意表达式。例如,图 A.12 中的第一个公式计算每行按升序排列的年龄的分位数值。该列然后包含计算列中按升序排序的 age 插值。第二个公式列出按降序排列的年龄插值。
图 A.12 Quantile 函数的示例
从表示最低值的 1 到表示最高值的非缺失列数,对每行的值进行排名。可通过报告可能排名的平均值,按照结值最初出现的顺序分配排名,为两个值指定可能的最低排名或以任意方式指定,来打破并列关系。(JMP 12 使用任意方式打破并列关系。)分布的“正态分位数”输出使用平均值方式打破并列关系。
对数值表达式执行常规标准化。对于每个行 i,Col Standardize(height) 为 (HeightRow()–Col Mean(Height))/Col Std Dev(Height)。
计算指定的参数列表中非缺失值的算术平均数。参数可以是常数、数字或表达式。Mean 函数最初显示带一个参数。您可以使用“公式编辑器”小键盘上的插入按钮 () 或通过键入逗号添加参数。
计算指定的参数列表中非缺失值的标准差。参数可以是常数、数字或表达式。Std Dev 函数最初显示带一个参数。您可以使用“公式编辑器”小键盘上的插入按钮 () 或通过键入逗号添加参数。
计算指定的参数列表中非缺失值的数目。
计算指定的参数列表中非缺失值的总和。
为所有非缺失值(在您指定的参数剩余列表中)计算第一个参数指定的分位数。
按求和索引所指定的那样对列中值的显式范围进行求值。此行为不同于所有其他统计函数(Product 除外),它始终对每行求值。Summation 函数使用图 A.13 中所示的求和符号。 要求和,请用包含索引变量 i 的表达式或您分配的索引变量替换缺失的 body 项。Summation 对 i = 1、i = 2 直到 i = NRow() 重复对表达式求值并将非缺失结果相加以确定最终结果。
您可以使用对公式合适的任意表达式替换 NRow()(活动电子表格中的行数)和索引常数 i。例如,图 A.13 中的求和公式计算第 1 行到当前行号每行的所有收入值的总和,使用收入列的累积总计填充计算列。
图 A.13 Summation 函数的示例
按求和索引所指定的那样对列中值的显式范围进行求值,与所有其他统计函数不同(Summation 除外),它始终对每行求值。Product 使用图 A.14 中的公式所示的符号。 要计算乘积,请用包含索引变量 j 的表达式替换缺失的 body 项。Product 对 i = 1、i = 2 直到 i = n 重复对表达式求值并将非缺失结果相乘以确定最终结果。
您可以使用对公式合适的任意表达式替换 NRow()(活动电子表格中的行数)和索引常数 i。
例如,图 A.14 中的 product 示例计算 i! (每个行号的阶乘)。
图 A.14 Product 函数的示例
分别从指定的非缺失参数的列表返回最小值和最大值。
计算指定的参数列表中缺失值的数目。
返回所有元素的平方和。