t 分布
什么是 t 分布?
t 分布描述当总体标准差未知且观测值来自正态分布的总体时,样本均值与总体均值的标准化距离。
t 分布与 Student t 分布是否相同?
是的。
t 分布与 z 分布之间的最大不同在哪里?
标准正态分布或 z 分布假设您知道总体标准差。t 分布则是基于样本标准差。
t 分布与正态分布
t 分布与正态分布相似。它有精准的数学定义。这里我们不深入探讨复杂的数学,而是看看 t 分布的有用属性,以及为什么它在分析中很重要。
- 和正态分布一样,t 分布有平滑的形状。
- 和正态分布一样,t 分布是对称的。如果在均值处将其对折,两侧是相同的。
- 和标准正态分布(或 z 分布)一样,t 分布的均值是 0。
- 正态分布假设总体标准差是已知的。t 分布不做这种假设。
- t 分布是通过自由度定义的。这些与样本量大小相关。
- t 分布在样本量较小或总体标准差未知,以及两者同时满足时最有用。
- 随着样本量大小增加,t 分布会变得与正态分布更加相似。
请参考下面这个图形,它将 3 种 t 分布与标准正态分布进行比较:
所有分布都有平滑的形状。所有分布都是对称的。所有分布的均值都是 0。
t 分布的形状取决于自由度。具有较高自由度的曲线较高,并且尾部较细。与 z 分布相比,3 种 t 分布都有“更重的尾部”。
可以看到,具有较高自由度的曲线是如何更接近 z 分布的。将具有 1 个自由度的粉色曲线与代表 z 分布的绿色曲线进行比较。与 z 分布相比,具有 1 个自由度的 t 分布较短,并且尾部较粗。然后将具有 10 个自由度的蓝色曲线与代表 z 分布的绿色曲线进行比较。这两种分布非常相似。
一个常用的经验方法是,在样本大小至少等于 30 的情况下,可以使用 z 分布来代替 t 分布。下图图 2 显示了具有 30 个自由度的 t 分布和 z 分布。该图使用绿色虚线来代表 z,因此您可以同时看到两条曲线。正是因为存在这种相似性,所以当样本量大小足够大时,在统计方法中将使用 z 分布来代替 t 分布。
关于假设检验和 t 分布的最后部分
当您开展 t 检验时,您想要确认的是,与来自 t 分布的期望值相比,检验统计量是否具有更极端的值。
对于双尾检验,您要观察分布的两个尾部。下图图 3 显示了双尾检验的决策过程。该曲线是具有 21 个自由度的 t 分布。来自 α = 0.05/2 = 0.025 的 t 分布的值是 2.080。对于双尾检验,如果检验统计量大于参考值的绝对值,将拒绝原假设。如果检验统计量的值落在尾部的下方或上方,将拒绝原假设。如果检验统计量在两条参考线之内,将无法拒绝原假设。
对于单尾检验,您只需观察分布的一个尾部。例如,下面的图 4 显示了单尾检验的决策过程。该曲线也是具有 21 个自由度的 t 分布。对于单尾检验,来自 α = 0.05 的 t 分布的值是 1.721。如果检验统计量高于参考值,将拒绝原假设。如果检验统计量低于参考线,将无法拒绝原假设。
如何使用 t 表格?
大多数人都会使用软件来开展 t 检验所需的各种计算。但许多统计学书籍仍然提供了 t 表格,因此,了解如何使用表格也会有一些帮助。下面的步骤描述了如何使用典型的 t 表格。
- 确定表格是用于双尾检验还是单尾检验。然后,确定您是有单尾检验还是双尾检验。t 表格中的列确定不同的 alpha 水平。
如果您有可用于单尾检验的表格,您仍然可以使用它来开展双尾检验。如果您为双尾检验设置了 α = 0.05,并且只有单尾表格,请使用 α = 0.025 的列。 - 确定数据的自由度。t 表格中的行对应不同的自由度。大多数表格最多有 30 个自由度,然后到此为止。这些表格假定对于大型样本数据,人们将会使用 z 分布。
- 在表格中找到 α 水平与自由度交叉处的单元格。这是 t 分布值。将统计量与 t 分布值进行比较,得到结论。