双样本 t 检验

什么是双样本 t 检验?

双样本 t 检验(也称为独立样本 t 检验)是一种统计检验方法,用于检验两个组的未知总体均值是否相等。

它与 A/B 检验是否相同?

相同,双样本 t 检验用于分析 A/B 检验的结果。

何时使用双样本 t 检验?

当数据相互独立、是从两个正态分布的样本中随机抽样的、并且两个独立组有相等的方差时,您可以使用该检验。

如果有两个以上的组,该怎么办?

请使用多重比较方法。方差分析 (ANOVA) 就是这样一种方法。其他多重比较方法包括:用于检验所有配对差异的 Tukey-Kramer 检验,用于将组间均值与总体均值进行比较的均值分析 (ANOM),或用于将每组均值与对照均值进行比较的 Dunnett’s 检验。

如果两组方差不等,该怎么办?

您仍可以使用双样本 t 检验。可使用其他的标准差估计值。

如果数据不是接近正态分布的,该怎么办?

如果样本量很小,您可能无法检验正态性。这就需要依赖您对数据的理解。当您无法假设数据的正态性时,可执行非参数检验,非参数检验不需要做正态性假设。

使用双样本 t 检验

下面的部分将讨论需要哪些资源来执行检验,检查数据,如何开展检验验,以及统计详情。

需要哪些资源?

对于双样本 t 检验,我们需要两个变量。一个变量定义两个组。第二个变量是感兴趣的测量值。

我们还会有一些想法或假设,即:两个组的潜在总体均值不同。以下是两个示例:

  • 有一些学生,英语是的他们的第一语言;有一些学生不是这样。所有学生都参加了阅读考试。这里的两个组也即是:英语为母语的学生和英语为非母语的学生。测量值是考试分数。假设,以英语为母语和英语为非母语的这两组人群的潜在总体的平均考试分数不同。我们想知道,英语为母语的人群的总体平均分数,是否与以英语作为第二语言的人不同。
  • 测量两个不同品牌能量棒的蛋白质克数。这里的两个组就是这两个品牌。测量值是每根能量棒的蛋白质克数。假设两个品牌的潜在总体的平均蛋白质克数可能不同。我们想知道,是否有足够的证明来证明两个品牌能量棒的平均蛋白质克数不同。

双样本 t 检验假设

若要执行有效的检验:

  • 数据必须是独立的。一个观测值的测量值不影响任何其他观测值的测量值。
  • 每组中的数据必须是通过从总体中随机抽样获得的。
  • 每组中的数据呈正态分布。
  • 数据是连续型的。
  • 两个独立的组的方差相等。

对于很小的数据组,可能难以检验这些要求。下面我们将讨论如何使用软件来检查这些要求,以及当不满足某个要求时该如何做。

双样本 t 检验示例

测量体脂百分比是衡量一个人健康状况的一种方法。平均体脂百分比因年龄而异,但根据某些指导原则,男性体脂的正常范围是 15-20%,女性体脂的正常范围是 20-25%。

我们的样本数据来自一组男性和女性,他们在一年中每周在健身房锻炼三次。然后,他们的教练测量了体脂。下表显示了这些数据。

表 1:按性别分组的体脂百分比数据

体脂百分比

男性

13.36.020.08.014.0
19.018.025.016.024.0
15.01.015.0  

女性

22.016.021.721.030.0
26.012.023.228.023.0

在我们的样本中,您可以清楚地看到,男性和女性的体脂测量值有些是叠加的,但也有一些差异。仅仅通过观察数据,很难就健身房中男性和女性这两个总体人群是否具有相同的平均体脂得出任何可靠的结论。这就是统计检验的价值 – 它们提供了一种通用的、在统计学上有效的方法来帮助人们做出决策,让每个人可以针对相同的数据集做出相同的决策。

检查数据

我们首先来回答这个问题:双样本 t 检验这种方法是否适合用来评估男性与女性之间的体脂差异?

  • 数据是独立的。任何一个人的体脂与另一个人的体脂无关。
  • 假设接受测量的个人代表从健身房会员总体中抽取的简单随机样本。
  • 假设数据是正态分布的,并且我们可以检验这种假设。
  • 数据是体脂测量值。测量值是连续型的。
  • 假设男性和女性的数据方差相等,并且我们可以检验这种假设。

在进行分析之前,我们始终应该快速看一下数据。下图显示了男性和女性的直方图和汇总统计量。

图 1:体脂数据的直方图和汇总统计量

两个直方图在相同的测量尺度上。通过快速看一下直方图,可以看到,没有十分异常的点,即离群值。数据看起来大致呈钟型,因此我们最初假设数据是正态分布这种想法似乎是合理的。

通过检验汇总统计量,我们可以看到,标准差是相似的。这支持方差相等的想法。我们还可以使用方差检验来检查这一点。

从这些观测来看,双样本 t 检验这种方法似乎适合检验均值差异。

如何执行双样本 t 检验?

对于每个组,我们需要有均值、标准差和样本大小。下表中显示了这些数据。

表 2:按性别分组的均值、标准差和样本大小统计量

样本大小 (n)平均值 (x̅)标准差 (s)
女性1022.295.32
男性1314.956.84

没有执行任何检验,我们就能看到,在样本中,男性和女性的均值是不同的。但它们是怎样不同呢?均值是否“足够接近”,可以让我们得出这样的结论:健身房中男性和女性更大总体的平均体脂相同?或者,均值是否差异过大,让我们无法得出这样的结论?

我们将在下面的统计详情中进一步说明支持双样本 t 检验的原则,但我们先从头到尾继续完成相关的步骤。首先计算检验统计量。此计算首先是要找到两个均值之间的差异:

$ 22.29 - 14.95 = 7.34 $

样本差异可以估计两组数据总体均值之间的差异。

接下来,计算合并标准差。这样可以合并起来估计总体标准差。估计值会针对不同的组大小进行调整。首先,计算合并方差:

$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $

$ s_p^2 = \frac{((10 - 1)5.32^2) + ((13 - 1)6.84^2)}{(10 + 13 - 2)} $

$ = \frac{(9\times28.30)+ (12\times46.82)}{21}$

$ = \frac{(254.7+ 561.85)}{21} $

$ =\frac{816.55}{21}= 38.88 $

 

接下来,取合并方差的平方根,以得到合并标准差。即:

$ \sqrt{38.88}= 6.24 $

现在有了计算检验统计量的所有要素。我们有了均值差异、合并标准差和样本大小。我们将计算检验统计量,如下所示:

$ t = \frac{\text{组平均值差异}}{\text{标准误差差异}} = \frac{7.34}{(6.24\times \sqrt{(1/10 + 1/13)})} = \frac{7.34}{2.62}= 2.80 $

为了评估均值之间的差异,以便做出关于健身房课程的决策,我们将检验统计量与来自 t 分布的理论值进行比较。此操作包含 4 个步骤:

  1. 确定我们愿意为宣告显著差异而承担的风险。对于体脂数据,我们愿意为得出错误结论(即,当男性和女性未知的总体均值实际上相等时,我们认为它们不相等)承担 5% 的风险。用统计学的表达方式,将以 α 表示的显著性水平设置为 0.05。最好在在收集数据之前以及计算检验统计量之前做出此设定。
  2. 计算检验统计量。检验统计量为2.80。
  3. 根据我们的原假设(即男性和女性的均值相等)从 t 分布中找到理论值。大多数统计学书籍都有 t 分布查询表。您也可以在网上找到这些表格。最可能的情况是,您会使用软件而非打印的表格。

    为了找到这个值,我们需要有显著性水平 (α = 0.05) 和自由度。自由度 (df) 基于两组的样本大小。对于体脂数据,也就是:

    $ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $

    α = 0.05 并且具有 21 个自由度的 t 值是 2.080。
  4. 将统计量的值 (2.80) 与 t 值进行比较。由于 2.80 > 2.080,我们将拒绝男性和女性的平均体脂相等这个原假设,并可以得出这样的结论:我们有证据证明男性和女性总体的体脂不同。

统计详情

让我们使用统计学术语来看看体脂数据和双样本 t 检验。

我们的原假设是,潜在的总体均值相同。原假设的写法如下所示:

$ H_o:  \mathrm{\mu_1} =\mathrm{\mu_2} $

备择假设是均值不相等。备择假设的写法如下所示:

$ H_o:  \mathrm{\mu_1} \neq \mathrm{\mu_2} $

计算每组的均值,然后计算两个均值之间的差异。备择假设的写法如下所示:

$\overline{x_1} -  \overline{x_2} $

计算合并标准差。这假设潜在的总体方差相等。合并方差公式如下所示:

$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $

公式以 n1 表示第一组的样本大小,以 n2 表示第二组的样本大小。两组的标准差是 s1s2。这种估计允许两组有不同的观测值数量。合并标准差是方差的平方根,以 sp 表示。

如果两组的样本大小相同,该怎么办?在这种情况下,合并方差估计值就是两组的方差平均值:

$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $

检验统计量的计算方法是:

$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $

检验统计量的分子是两组平均值之间的差异。它可以估计两个未知总体均值之间的差异。分母是两个未知总体均值之间的差异的标准误差估计值。

技术详情:对于单个均值,标准误差是 $ s/\sqrt{n} $上面的公式将这种想法扩展到了使用合并的 s(标准差)估计值以及可以有不同组大小的两个组。

然后,将检验统计量与我们为数据所选择的 alpha 值和自由度得到的 t 值进行比较。以体脂数据为例,设置 a = 0.05。自由度 (df) 基于组大小,计算方法为:

$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $

公式以 n1 表示第一组的样本大小,以 n2 表示第二组的样本大小。统计师将 α = 0.05 并且有 21 个自由度的 t 值写作:

$ t_{0.05,21}$

α = 0.05 并且有 21 个自由度的 t 值是 2.080。我们的比较有两种可能的结果:

  • 检验统计量低于 t 值。您无法拒绝均值相等这个原假设。您得出的结论是:数据支持男性和女性有相同的平均体脂这个假设。
  • 检验统计量高于 t 值。您将拒绝均值相等这个原假设。您无法得出男性和女性有相同的平均体脂这个结论。

有不等方差的 t 检验

当两组方差不等时,我们无法使用合并的标准差估计值。相反,分别取每组的标准误差。检验统计量是:

$ t = \frac{ (\overline{x_1} -  \overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $

检验统计量的分子与前面相同。它是两组平均值之间的差异。分母是均值之间差异的总体标准误差估计值。它基于每个组单独的标准误差。

有不等方差的 t 值的自由度计算比有相等方差的自由度计算更为复杂,这通常留给统计软件来处理。需要记住的重点是:如果您无法使用合并的标准差估计值,您就无法使用简单的公式来计算自由度。

检验正态性

当两组的样本较小时,相对于较大的样本,正态性假设更加重要

正态分布是对称的,这意味着它们在中心的两侧是“均等”分布的。正态分布没有极值,即离群值。您可以通过图形来查看正态分布的这两个特征。前面我们已确定,体脂数据“足够接近”正态,因此可以采用正态性假设。下图显示了男性和女性的正态分位数图,它支持我们的决策。

图 2:男性和女性体脂测量值的正态分位数图

您也可以使用软件来执行标准的正态性检验。上图显示了使用 JMP 软件来检验正态性的结果。我们分别检验每个组。对男性的检验和对女性的检验都表明,我们无法拒绝正态分布假设。我们可以采用男性和女性的体脂数据呈正态分布这个假设。

对不等方差的检验

对不等方差的检验比较复杂。我们不会详细说明计算方法,但会展示JMP 软件的检验结果。下图显示了对体脂数据的不等方差进行检验的结果。

图 3:对体脂数据的不等方差进行的检验

这里不深入探讨对不等方差进行各类检验的详细信息,我们将使用 F 检验。在检验之前,我们确定,对于得出错误结论(即当方差不相等时我们认为它们是相等的),我们可接受 10% 的风险。这意味着我们设置了 α = 0.10。

和大多数统计软件一样,JMP 显示了检验的 p 值。这是为检验统计量找到比观测到的值更为极端的值的可能性。它难以手动计算。就上图而言,F 检验统计量是 1.654,p 值是 0.4561。这大于我们的 α 值:0.4561 > 0.10。因此,我们无法拒绝方差相等这个原假设。就实际操作而言,我们可以采用双样本 t 检验,并假设两组的方差相等。

了解 p 值

您可以使用直观的方式来检查检验统计量是否比分布中的值更为极端。下图显示了具有 21 个自由度的 t 分布。

图 4:具有 21 个自由度且 α = 0.05 的 t 分布

由于我们是双侧检验,且设置了 α = 0.05,因此该图显示,2.080 这个值“切割”掉了位于双尾的每一个尾部中的 2.5% 的数据。总体数据中只有 5% 的数据比 2.080 更远离尾部。因为我们的检验统计量 2.80 超出了切割点,所以我们将拒绝均值相等这个原假设。

使用软件进行一站式操作

下图显示了使用 JMP 软件对体脂数据执行双样本 t 检验的结果。

图 5:使用 JMP 软件执行双样本 t 检验的结果

假设方差相等的双样本 t 检验的结果与我们前面计算的结果相同。检验统计量是 2.79996。软件显示了双边检验和单边检验的结果。双侧检验是我们想要的(概率 > |t|)。我们的原假设是:男性和女性的平均体脂相等。我们的备择假设是:平均体脂不相等。单侧检验适用于单侧备择假设 – 例如,适用于男性的平均体脂低于女性的平均体脂这个原假设。

我们可以拒绝两组的平均体脂相等这个原假设,并得出这样的结论:我们有证据证明男性总体和女性总体的体脂存在差异。软件显示,p 值是 0.0107。我们确定,有 5% 的风险会在男性和女性的平均体脂相等时得出二者的体脂存在差异的结论。必须在执行统计检验之前做出此决策,这很重要。

该图还显示了不假设方差相等的 t 检验的结果。该检验不使用合并的标准差估计值。如我们前面提到的那样,该检验也有复杂的公式来计算自由度。您可以看到,自由度是 20.9888。软件显示,p 值是 0.0086。同样,由于我们确定了 5% 的风险,我们可以拒绝男性和女性的平均体脂相等这个原假设。

其他主题

如果有两个以上的组,该怎么办?

如果您有两个以上的独立组,将无法使用双样本 t 检验。您应该使用多重比较方法。ANOVA(即方差分析)就是这样的一种方法。其他多重比较方法包括:用于检验所有配对差异的 Tukey-Kramer 检验,用于将组间均值与总体均值进行比较的均值分析 (ANOM),或用于将每个组均值与对照均值进行比较的 Dunnett’s 检验。

如果数据不符合正态分布,该怎么办?

如果样本很小,可能难以检验正态性。在这种情况下,您可能需要借助于您对测量值的理解。例如,对于体脂数据,教练知道体脂的潜在分布是正态分布。即使是对于很小的样本,教练也可能会采用 t 检验并做出正态性假设。

如果您知道潜在测量值不是正态分布的,该怎么办?或者,如果样本量较大并且正态性检验被拒绝,该怎么办?在这种情况下,您可以使用非参数分析。这种类型的分析不需要假设数据来自特定的分布。对于双样本 t­ 检验,Wilcoxon 秩和检验就是一种可以使用的非参数检验。