发布日期: 11/15/2021

统计函数

在公式中可以使用两种统计函数:

函数名称具有前缀 Col。这些函数计算一列数字或涉及列的表达式的统计值。

MeanStd DevNumberSumQuantileMaximumMinimumN Missing 函数。这些函数针对一些列或参数求值。针对一系列参数的每行计算统计值。您可以点击“公式编辑器”小键盘上的插入键 (Image shown here) 或键入逗号来将参数添加到接受多个参数的函数。有多个相邻参数时,选择函数和第一个参数,然后按 Shift 键并点击组中的最后一个参数。这些函数将自动随完整列表一起显示。

注意:统计函数中忽略缺失值。

有关语法的详细信息,请参见《JSL Syntax Reference》中的Statistical Functions

Col Cumulative Sum

返回当前行的累积和。Col Cumulative Sum 支持 By 列,无需对这些列进行排序。

Col Mean

计算参数所标识的数值的均值(或算术平均值)。公式 Col Mean(age) 计算 age 列中所有非缺失值的平均值。

Col Moving Average

返回基于当前行的给定区间的移动平均值。忽略缺失值。

Col Std Dev

测量参数所标识的分布针对均值的散布程度。在正态分布中,大约分布的 68% 位于均值两侧的一个标准差内。大约分布的 95% 位于均值两侧的两个标准差内。大约分布的 99% 位于均值两侧的三个标准差内。

Col Number

对指定列中的非缺失值数进行计数。当单元格没有分配值或为无效运算的结果(如被零除)时,会出现缺失数值。缺失值在电子表格上显示为缺失值标记 (•)。缺失字符值为空字符串。在行状态列的公式中,排除的行状态特征将视为缺失值。

Col N Missing

对指定列中的缺失值数进行计数。当单元格没有分配值或为无效运算的结果(如被零除)时,会出现缺失数值。缺失值在数据网格中显示为缺失值字符 (•)。缺失字符值为空字符串。

Col Sum

计算数值参数中值的和。忽略缺失值。

Col Minimum 和 Col Maximum

获取数值参数的最小值。Col Minimum 忽略缺失值。Col Maximum 获取数值列参数的最大值并忽略缺失值。

Col Quantile

计算值的特定百分比小于等于该值的值。例如,计算为 50% 分位数(也称为中位数)的值大于等于 50% 的数据。一半数据值小于第 50 分位数。

Col Quantile 函数的分位数参数表示除以 100 的分位数百分比。25% 分位数也称为下四分位数,对应于 p = 0.25,75% 分位数称为上四分位数,对应于 p = 0.75。

“公式编辑器”通过按升序排列值计算一列包含 n 个非缺失值的分位数。排序的列值下标 y1y2,...,yn 表示按升序排列的秩。

使用公式 p(n + 1) 计算第 p 分位数值,其中 p 为百分比值,n 为非缺失值的总数。若 p(n+1) 为整数,则分位数值为 yp(n+1)。若 p(n + 1) 不是整数,则通过以下方式将该值插值:结果的整数部分赋给 i 并将小数部分赋给 f,然后应用公式 (1 – f)yi + (f)yi+1

例如,假定列包含值 2, 4, 6, 8, 10, 12, 14, 16, 18 和 20。50% 分位数的计算公式为:0.5(10 + 1) = 5.5

由于结果为小数,则将 50% 分位数值插值为:

(1 – 0.5) x 10 + (0.5) x 12 = (0.5)10 + (0.5)12 = 6 + 5 = 11

以下是示例 ColQuantile 公式:

ColQuantile(age, 1) 计算最大年龄。

ColQuantile(age, 0.75) 计算上四分位数年龄。

ColQuantile(age, 0.5) 计算中位数年龄。

ColQuantile(age, 0.25) 计算下四分位数年龄。

ColQuantile(age, 0) 计算最小年龄。

ColQuantile 参数可以是求值结果为 0 到 1(含端点)之间的值的任意表达式。例如,图 A.12 中的第一个公式计算每行按升序排列的年龄的分位数值。该列然后包含计算列中按升序排序的 age 插值。第二个公式列出按降序排列的年龄插值。

图 A.12 Quantile 函数的示例 

Image shown here

Col Rank

从表示最低值的 1 到表示最高值的非缺失列数,对每行的值进行排名。可通过报告可能排名的平均值,按照结值最初出现的顺序分配排名,为两个值指定可能的最低排名或以任意方式指定,来打破并列关系。(JMP 12 使用任意方式打破并列关系。)分布的“正态分位数”输出使用平均值方式打破并列关系。

Col Standardize

对数值表达式执行常规标准化。对于每个行 iCol Standardize(height) (HeightRow()–Col Mean(Height))/Col Std Dev(Height)

Mean

计算指定的参数列表中非缺失值的算术平均数。参数可以是常数、数字或表达式。Mean 函数最初显示带一个参数。您可以使用“公式编辑器”小键盘上的插入按钮 (Image shown here) 或通过键入逗号添加参数。

Std Dev

计算指定的参数列表中非缺失值的标准差。参数可以是常数、数字或表达式。Std Dev 函数最初显示带一个参数。您可以使用“公式编辑器”小键盘上的插入按钮 (Image shown here) 或通过键入逗号添加参数。

Number

计算指定的参数列表中非缺失值的数目。

Sum

计算指定的参数列表中非缺失值的总和。

Quantile

为所有非缺失值(在您指定的参数剩余列表中)计算第一个参数指定的分位数。

Summation (Σ)

按求和索引所指定的那样对列中值的显式范围进行求值。此行为不同于所有其他统计函数(Product 除外),它始终每行求值。Summation 函数使用图 A.13 中所示的求和符号。 要求和,请用包含索引变量 i 的表达式或您分配的索引变量替换缺失的 body 项。Summationi = 1、i = 2 直到 i = NRow() 重复对表达式求值并将非缺失结果相加以确定最终结果。

您可以使用对公式合适的任意表达式替换 NRow()(活动电子表格中的行数)和索引常数 i。例如,图 A.13 中的求和公式计算第 1 行到当前行号每行的所有收入值的总和,使用收入列的累积总计填充计算列。

图 A.13 Summation 函数的示例 

Image shown here

Product (Π)

按求和索引所指定的那样对列中值的显式范围进行求值,与所有其他统计函数不同(Summation 除外),它始终每行求值。Product 使用图 A.14 中的公式所示的符号。 要计算乘积,请用包含索引变量 j 的表达式替换缺失的 body 项。Producti = 1、i = 2 直到 i = n 重复对表达式求值并将非缺失结果相乘以确定最终结果。

您可以使用对公式合适的任意表达式替换 NRow()(活动电子表格中的行数)和索引常数 i

例如,图 A.14 中的 product 示例计算 i! (每个行号的阶乘)。

图 A.14 Product 函数的示例 

Image shown here

Minimum 和 Maximum

分别从指定的非缺失参数的列表返回最小值和最大值。

N Missing

计算指定的参数列表中缺失值的数目。

SSQ

返回所有元素的平方和。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).