配对 t 检验
什么是配对 t 检验?
配对 t 检验是一种统计检验方法,用于检验配对测量值之间的均值差异是否为 0。
何时使用配对 t 检验?
当数据是成对的测量值时,您可以使用t检验。例如,您可能有一组人群“之前”和“之后”的测量值。成对测量值之间的差异也应该是正态分布的。
配对 t 检验还有哪些其他名称?
配对 t 检验也称为非独立样本 t 检验、成对差异 t 检验、成对t-检验以及重复样本 t 检验。
如果数据不是接近正态分布的,该怎么办?
如果样本量很小,可能无法检验正态性。您可能需要依赖您对数据的理解。或者,您可以执行没有正态性假设的非参数检验。
使用配对t 检验
下面将讨论需要哪些资源来执行检验,检查我们的数据,如何执行检验,以及统计详情。
需要哪些资源?
对于配对 t 检验,我们需要两个变量。一个变量定义配对观测值。第二个变量是测量值。有时候,我们已经有了测量变量的成对差异。而其他时候,我们有代表每对测量值“之前”和“之后”的单独变量,需要计算差异。
我们还有一种想法或假设,即数据组之间的差异是 0。这里有三个示例:
- 一组干性皮肤的人群在其一只手臂上使用含有药物的乳液,而在另一只手臂上使用不含药物的乳液。一周后,医生会测量每只手臂上的发红程度。我们想知道,含有药物的乳液是否比不含药物的乳液效果更好。我们要弄清楚,涂有含药乳液的手臂上的发红程度是否比另一只手臂上的红发红程度轻。由于我们有每个人测量前后的数值,因此可以找到差异。然后,我们将检验均值差异是否为 0。
- 我们测量一项戒烟计划中人们的体重。对于每个人,我们有他们在计划开始时和结束时的体重。我们想知道,在该计划中,人们的平均体重变化是否为 0。
- 讲师让学生参加了一次考试,第二天又让学生参加了基于相同学习材料的另一次考试。讲师想知道,这两次考试难度是否相等。我们计算每个学生考试分数的差异。我们将检验均值差异是否为 0。
配对 t 检验假设
要应用配对 t 检验来检验成对测量值之间的差异,需要遵循以下假设:
- 受试者必须是独立的。一个受试者的测量值不影响任何其他受试者的测量值。
- 每一对测量值必须来自同一个受试者。例如,在上面的例子中,某个抽烟者“之前”和“之后”的体重必须是同一个人的体重。
- 测量的差异是呈正态分布的。
配对 t 检验示例
讲师想明年在她的班级中开展两次考试。今年,她让学生参加了这两次考试。她想知道考试难度是否相等,并且想通过观察分数之间的差异来检查这一点。如果学生分数之间的均值差异“足够接近”0,她将得出有意义的结论,即考试难度相等。这里是数据:
表 1:每个学生的考试分数
学生 | 第 1 次考试分数 | 第 2 次考试分数 | 差值 |
Bob | 63 | 69 | 6 |
Nina | 65 | 65 | 0 |
Tim | 56 | 62 | 6 |
Kate | 100 | 91 | -9 |
Alonzo | 88 | 78 | -10 |
Jose | 83 | 87 | 4 |
Nikhil | 77 | 79 | 2 |
Julia | 92 | 88 | -4 |
Tohru | 90 | 85 | -5 |
Michael | 84 | 92 | 8 |
Jean | 68 | 69 | 1 |
Indra | 74 | 81 | 7 |
Susan | 87 | 84 | -3 |
Allen | 64 | 75 | 11 |
Paul | 71 | 84 | 13 |
Edwina | 88 | 82 | -6 |
从上表中您可以看到,分数差异有些是正值,有些是负值。您可能会认为,两次考试难度相等。其他人可能会有不同观点。统计检验提供了一种做出决策的常用方法,可以让每个人针对相同的数据做出相同的决策。
检查数据
我们首先来回答这个问题:配对 t 检验是否适合用来评估两次考试之间的难度差异?
- 受试者是独立的。每个学生独立完成两次考试。
- 每一对测量值都来自同一个受试者。每个学生都参加了两次考试。
- 差异是正态分布的。目前,我们将假设这是真的。稍后,我们将对此进行进一步检验。
因此,我们确定我们选择了正确的分析方法。
在进行分析之前,我们将对数据进行绘图。下图显示了分数差异的直方图和汇总统计量。
从直方图中,我们可以看到,没有十分异常的点,即离群值。数据大致呈钟型,因此我们认为差异呈正态分布这个想法似乎是合理的。
从统计量中我们可以看到,均值差异是 1.3。这是否“足够接近”0,是否可以让讲师确定两次考试难度相等?
如何进行配对 t 检验?
我们将在下面的统计详情中进一步说明配对 t 检验的原则,但让我们先从头到尾继续完成相应的步骤。首先计算检验统计量。为此,我们需要有平均差异、差异的标准差和样本大小。上面的图 1 中显示了这些数据。(请注意,下面将统计量四舍五入到两位小数。软件通常会显示更多的小数位数,并在计算中使用它们。)
平均分数差异是:
$ \overline{x_d} = 1.31 $
接下来,我们计算分数差异的标准误差。计算如下:
$ \text{标准误差} = \frac{s_d}{\sqrt{n}} = \frac{7.00}{\sqrt{16}}= \frac{7.00}{4}= 1.75 $
在上面的公式中,n 是学生人数 – 这是差异的数量。差异的标准差是 sd。
我们现在有了计算检验统计量的要素。开始计算检验统计量,如下所示:
$ t = \dfrac{\text{平均差异}}{\text{标准误差}} = \frac{1.31}{1.75}= 0.750 $
为了做出决策,我们将检验统计量与来自 t 分布的值进行比较。此操作包含 4 个步骤:
- 确定愿意为在实际没有差异却误认为有差异时而承担的风险。对于考试分数数据,我们愿意为得出错误结论(即,当未知的平均考试分数差异不是 0 时,我们认为它是 0)承担 5% 的风险。用统计学的表达方式,我们将以 α 表示的显著性水平设置为 0.05。最好在收集数据之前,以及计算检验统计量之前做出决策。
- 计算检验统计量。我们的检验统计量是 0.750。
- 我们找到来自 t 分布的值。大多数统计学书籍都有分布查询表。您也可以在网上找到这些表格。最可能的情况是,您使用软件进行分析,而非打印的表格。
为了找到这个值,我们需要有显著性水平 (α = 0.05) 和自由度。自由度 (df) 基于样本大小。对于考试分数数据,即:
$ df = n - 1 = 16 - 1 = 15 $
α = 0.05 并且具有 15 个自由度的 t 值是 2.131。 - 将统计量的值 (0.750) 与 t 值进行比较。因为 0.750 < 2.131,我们无法拒绝平均分数差异是 0 这种假设。因此,我们得出有意义的结论,认为考试难度相等。
统计详情
让我们使用统计学术语来看看考试分数数据和配对 t 检验。
我们的原假设是:总体均值差异为 0。原假设的写法如下所示:
$ H_o: \mathrm{\mu_d} = 0 $
备择假设是:总体均值差异不为 0。备择假设的写法如下所示:
$ H_o: \mathrm{\mu_d} \neq 0 $
计算标准误差,如下所示:
$ 标准差 = \frac{s_d}{\sqrt{n}} $
公式以 sd 表示差异的样本标准差,以 n 表示样本大小。
检验统计量的计算方法是:
$ t = \frac{\mathrm{\mu_d}}{\frac{s}{\sqrt{n}}} $
将检验统计量与通过我们为数据选择的 alpha 值和自由度得到的 t 值进行比较。以考试分数数据为例,我们设置 α = 0.05。自由度 (df) 基于样本大小,计算方法为:
$ df = n - 1 = 16 - 1 = 15 $
统计人员将 α = 0.05 并且有 15 个自由度的 t 值写作:
$ t_{0.05,15}$
α = 0.05 并且有 15 个自由度的 t 值是 2.131。我们的比较有两种可能的结果:
- 检验统计量低于 t 值。您无法拒绝平均差异为 0 这个假设。讲师可以得出的结论是:两次考试难度相等。明年,她可以开展两次考试,让一半的学生参加第 1 次考试,让另一半的学生参加第 2 次考试。
- 检验统计量高于 t 值。您将拒绝平均差异为0 这个假设。讲师可以得出的结论是:两次考试难度不等。她必须让所有学生参加相同的考试。
检验正态性
相较于较大的样本量,正态性假设对较小的样本量更加重要。
正态分布是对称的,这意味着它们在中心的两侧是“均等”分布的。正态分布没有极值,即离群值。您可以通过图形来查看正态分布的这两个特征。前面我们已确定,考试分数差异的分布“足够接近”正态,因此可以采用正态性假设。下图显示了数据的正态分位数图,它印证了我们的决策。
您也可以使用软件来执行标准的正态性检验。下面的图 3 显示了使用 JMP 来检验正态性的结果。检验分数差异的分布。我们无法拒绝正态分布假设。我们可以采用配对 t 检验。
如果数据不符合正态分布,该怎么办?
如果样本量很小,就难以检验正态性。在这种情况下,您需要对所分析的数据有一定的理解。比如,对于考试分数数据,讲师清楚分数差异的潜在分布是符合正态分布的。即使是很小的样本量,讲师也可能会采用 t 检验并做出正态性假设。
如果您知道潜在测量值不是正态分布的,该怎么办?或者,如果样本量较大并且正态性检验被拒绝,该怎么办?在这种情况下,您可以使用非参数分析。这种类型的分析不需要假设数据来自特定的分布。对于配对 t 检验,一种非参数检验方法是 Wilcoxon 符号秩检验。
了解 p 值
您可以使用直观的方式来检查检验统计量是否比分布中的值更极端。t 分布与正态分布相似。下图显示了具有 15 个自由度的 t 分布。
由于我们是双侧检验,并且设置了 α = 0.05,因此该图显示,2.131 这个值“切割”掉了位于双尾每个尾部 2.5% 的数据。总体数据中只有 5% 的数据比 2.131 更远离尾部。
图 5 显示了我们的结果落在图形中的位置。您可以看到,检验统计量 (0.75) 并未足够“远离尾部”,因此无法拒绝平均差异是 0 这个假设。
使用软件执行一站式操作
若要在真实世界中执行配对 t 检验,大多数时候,您可能要使用软件。下图显示了使用 JMP 执行的考试分数数据的配对 t 检验结果。
软件显示了双侧检验(概率 > |t|)和单侧检验的结果。双侧检验是我们想要的。我们的原假设是:成对考试分数之间的平均差异是 0。我们的备择假设是:平均差异不等于 0。
软件显示,双侧检验的 p 值是 0.4650。这意味着,当潜在的总体平均差异是 0 时,看到样本平均差异大于或等于 1.31 的可能性在 100 次中大约有 47 次机会。我们有信心做出不拒绝原假设的决策。讲师可以实施她的计划,即,明年开展两次考试,让一半的学生参加第 1 次考试,让另一半的学生参加第 2 次考试。