单样本 t 检验

什么是单样本 t 检验?

单样本 t 检验是一种统计学上的假设检验,用于确定未知的总体均值是否与特定的值有差异。

何时使用单样本 t 检验?

您可以对连续型数据使用该检验。数据来自呈正态分布的总体的随机样本。

如果数据不是接近正态分布的,该怎么办?

如果样本量很小,您可能无法检验正态性。您可能需要依赖您对数据的理解。当您无法顺利执行正态性检验,您可以执行非参数检验,该检验不需要正态性假设。

使用单样本 t 检验

下面的部分将讨论我们需要哪些资源来执行检验,检查数据,执行检验,了解检验结果和详细的统计信息。

需要哪些资源?

对于单样本 t 检验,我们需要 1 个变量。

我们还有一种想法或假设,即总体均值有某个值。这里有两个示例:

  • 医院有男性患者胆固醇测量值的随机样本。这些患者并不是因为胆固醇问题来就诊的。他们没有服用任何药物来降低胆固醇。医院想知道,未知的患者胆固醇的均值是否与 200 mg 的目标水平有差异。
  • 我们测量了能量棒样本的蛋白质克数。标签上写着能量棒含有 20 克蛋白质。我们想知道标签内容是否正确。

单样本 t 检验假设

为了进行有效的检验,我们需要符合以下条件的数据:

  • 独立(值之间彼此不相关)。
  • 连续型。
  • 通过从总体中抽取简单随机样本获得。

此外,还要假设总体呈正态分布。

单样本 t 检验示例

假设我们从多家不同的商店中收集了 31 根能量棒的随机样本,以此来代表一般消费者可以获取的能量棒的总体。能量棒的标签标明每根能量棒含有 20 克蛋白质。

表 1:能量棒随机样本中的蛋白质克数

能量棒 - 蛋白质克数
20.7027.4622.1519.8521.2924.75
20.7522.9125.3420.3321.5421.08
22.1419.5621.1018.0424.1219.95
19.7218.2816.2617.4620.5322.12
25.0622.4419.0819.8821.3922.3325.79

从上表可以看到,有些能量棒的蛋白质含量低于 20 克。有些则高于 20 克。您可能会认为,数据显示标签信息正确。或许还有其他看法。统计检验为做出决策提供了可靠的方法,因此,每个人可以针对相同的数据集做出相同的决策。

检查数据

我们首先来回答这个问题:t 检验这种方法能否恰当地检验能量棒含有 20 克蛋白质?下面的列表给出了t检验需符合的要求。

  • 数据值是独立的。一根能量棒中的蛋白质克数独立于任何其他能量棒中的蛋白质克数。例如,如果您是从单一生产批次中收集的能量棒,数据值就是非独立的。从单一批次中抽取的样本只能代表该批次,不能广泛地代表能量棒。
  • 数据值是蛋白质克数。测量值是连续型的。
  • 我们假设能量棒是从一般消费者可以获取的能量棒总体(即不同批次的能量棒的组合)中抽取的简单随机样本。
  • 假设我们所需收集样本的总体是呈正态分布的,并且样本量极大,那我们是可以检查此假设的。

基于以上条件,才可以确定 t 检验是适合的方法。

在进行分析之前,我们应该快速看一下数据。下图显示了关于能量棒的直方图和汇总统计量。

图 1:能量棒中蛋白质克数的直方图和汇总统计量

通过快速看一下直方图,我们可以看到,没有异常的点,即离群值。数据看起来大致呈钟型,因此我们的正态分布假设似乎是合理的。

通过快速看一下统计量,我们可以看到,平均值是 21.40,高于 20。从 31 根能量棒样本得出的这个平均值,是否表明代表整个总体未知均值的 20 克蛋白质标签是无效的?

如何执行单样本 t 检验

为了在 t 检验中计算统计量,我们需要有均值、标准差和样本大小。上面图 1 的汇总统计量部分显示了这些数据。

我们将统计量四舍五入到两位小数。软件将显示更多的小数位数,并在计算中使用它们。(请注意,表 1 仅显示了两位小数;用于计算汇总统计量的实际数据有更多的小数位数。)

我们首先找到样本均值与 20 之间的差异:

$ 21.40-20\ =\ 1.40$

接下来,我们计算均值的标准误差。计算如下:

均值的标准误差 = $ \frac{s}{\sqrt{n}}= \frac{2.54}{\sqrt{31}}=0.456 $

这与上面图 1 中的值相符。

现在有了计算检验统计量的要素。我们将计算检验统计量,如下所示:

$ t =  \frac{\text{差异}}{\text{标准误差}}= \frac{1.40}{0.456}=3.07$

为了做出决策,我们将检验统计量与来自 t 分布的值进行比较。此操作包含 4 个步骤。

  1. 计算检验统计量。我们的检验统计量是 3.07。
  2. 确定愿意为错误结论(实际没有差异却误认为有差异)而承担的风险。对于能量棒数据,我们确定意为得出错误结论(即:当未知的总体均值实际上是 20 时,我们认为它不是 20)承担 5% 的风险。用统计学的方式表达,即设置 α = 0.05。在实践中,应该在收集数据之前设置风险水平 (α)。
  3. 基于决策,找到来自 t 分布的值。对于 t 检验,我们需要通过自由度来找到这个值。自由度基于样本大小。对于能量棒数据:

    自由度 = $ n - 1 = 31 - 1 = 30 $

    α = 0.05 并且有 30 个自由度的临界 t 值是 +/- 2.043。大多数统计学书籍都有分布查询表。您也可以在网上找到这些表格。最方便的方式是,可以直接使用软件,不必使用打印的表格。

  4. 将统计量的值 (3.07) 与 t 值进行比较。由于 3.07 > 2.043,我们将拒绝平均蛋白质克数等于 20 这个原假设。因此,可以得出的结论是:标签内容不正确,蛋白质克数的总体均值大于 20。

统计详情

让我们使用统计学术语来看看能量棒数据和单样本 t检验。

我们的原假设是,潜在的总体均值等于 20。原假设的写法如下所示:

$ H_o:  \mathrm{\mu} = 20 $

备择假设是,潜在的总体均值不等于 20。标签上写着蛋白质含量为 20 克是不正确的。备择假设的写法如下所示:

$ H_a:  \mathrm{\mu} ≠ 20 $

这是双边检验。我们要分别在两个方向上检验总体均值与 20 克之间是否存在差异。如果我们可以拒绝均值等于 20 克这个原假设,就可能得出结论:能量棒的标签内容是错误的。如果我们无法拒绝原假设,就可能得出结论:能量棒的标签内容可能是正确的。

计算样本的均值,然后计算与总体均值 mu 之间的差异:

$  \overline{x} - \mathrm{\mu} $

计算标准误差,如下所示:

$ \frac{s}{ \sqrt{n}} $

公式以 s 表示样本标准差,以 n 表示样本大小。  

检验统计量使用下面的公式:

$  \dfrac{\overline{x} - \mathrm{\mu}} {s / \sqrt{n}} $

将检验统计量与通过我们为数据选择的 alpha 值和自由度得到的 t 值进行比较。以能量棒数据为例,设置 a = 0.05。自由度 (df) 基于样本大小,计算方法为:

$ df = n - 1 = 31 - 1 = 30 $

统计人员将 α = 0.05 并且有 30 个自由度的 t 值写作:

$ t_{0.05,30}$

α = 0.05 并且有 30 个自由度的双边检验的 t 值是 +/- 2.042。我们的比较有两种可能的结果:

  • 检验统计量没有临界 t 值那么极端;换句话说,检验统计量不小于 -2.042,或不大于 +2.042。您将无法拒绝均值等于指定的值这个原假设。在我们的示例中,您将无法得出“应更改蛋白棒标签”这样的结论。
  • 检验统计量比临界 t 值更极端;换句话说,检验统计量小于 -2.042,或大于 +2.042。您将拒绝均值等于指定的值这个原假设。在我们的示例中,您得出的结论是:要么应该更新标签,要么应该改进生产过程,以确保所生产的蛋白棒中蛋白质的平均含量为 20 克。

检验正态性

相较于较大的样本,正态性假设对较小的样本更加重要。

正态分布是对称的,这意味着它们在中心的两侧是“均等”分布的。正态分布没有极端值,即离群值。可以通过图形来查看正态分布的这两个特征。前面我们已确定,能量棒数据“足够接近”正态,因此可以采用正态性假设。下图显示了数据的正态分位数图,与我们的决策相符。

图 4:能量棒数据的正态分位数图

您也可以使用软件来执行标准的正态性检验。下图显示了使用 JMP 软件来检验正态性的结果。我们无法拒绝正态分布假设。

图 5:使用 JMP 软件检验正态性

我们可以采用能量棒数据呈正态分布这个假设。

如果数据不符合正态分布,该怎么办?

如果样本很小,就难以检验正态性。在这种情况下,您可能需要借助于您对测量值的理解。例如,对于能量棒数据,公司知道蛋白质克数的潜在分布是呈正态分布的。那么,即使是对于很小的样本,公司也可能会采用 t 检验并做出正态性假设。

如果您知道潜在测量值不是正态分布的,该怎么办?或者,如果样本较大并且正态性检验被拒绝,该怎么办?在这种情况下,您可以使用非参数检验。非参数分析不依赖于数据值来自特定的分布这样的假设。对于单样本 t­ 检验,一种可能的非参数检验是 Wilcoxon 符号秩检验。

了解 p 值

您可以使用直观的方式来检查检验统计量是否比分布中的指定值更极端。下图显示了具有 30 个自由度的 t 分布。

图 6:具有 30 个自由度且 α = 0.05 的 t 分布

由于我们是双边检验,并且设置了 α = 0.05,因此该图显示,2.042 这个值“切割”掉了位于尾部共计 5% 的数据。

下一幅图显示我们的结果。您可以看到,检验统计量落在指定的临界值上方。它足够“远离尾部”,因此可以拒绝均值等于 20 这个假设。

图 7:在具有 30 个自由度的 t 分布中显示的结果

使用JMP软件执行一站式操作

通常,您可能会使用软件来执行 t 检验。下图显示了使用 JMP 软件执行的能量棒数据的单样本 t 检验结果。

图 8:使用 JMP 软件执行的能量棒数据的单样本 t 检验结果

软件显示了 20 这个原假设值,以及数据的平均值和标准差。检验统计量是 3.07。这与上面的计算相符。

软件显示了双边检验和单边检验的结果。我们执行双边检验。原假设是平均蛋白质克数等于 20。备择假设是平均蛋白质克数不等于 20。软件显示,双边检验的 p 值是 0.0046。这个 p 值描述了当潜在总体均值实际上是 20 时,我们看到样本平均值像 21.4 这么极端或者更极端的可能性;换句话说,也就是与我们在样本中观测到的均值相比,观测到某个样本均值与 20 之间存在差异(甚至存在更大差异)的概率。p 值是 0.0046 意味着在 10,000 次中大约有 46 次机会。我们可以充满信心地拒绝总体均值等于20 这个原假设。