ARTICLE

两样本等方 t 检验

两样本等方 t 检验 (Two-Sample Equal-Variance t-Test) 两样本等方 t 检验,又称合并方差 t 检验(Pooled t-Test)或学生 t 检验的两样本版本,是用于比较两个独立正态总体均值差异的最经典参数检验方法。其核心假设是两个总体的方差相等(方差齐性),在此前提下将两组样本的方差信息合并为一个更稳定的总体方差估计,从

浏览 0 更新 2025-10-26

两样本等方 t 检验 (Two-Sample Equal-Variance t-Test)

两样本等方 t 检验,又称合并方差 t 检验(Pooled t-Test)或学生 t 检验的两样本版本,是用于比较两个独立正态总体均值差异的最经典参数检验方法。其核心假设是两个总体的方差相等(方差齐性),在此前提下将两组样本的方差信息合并为一个更稳定的总体方差估计,从而构造 t 统计量。

基本概念与历史背景

两样本等方 t 检验的数学基础由William Sealy Gosset(笔名 Student)于 1908 年奠基,后经Ronald Fisher进一步发展。在 Gosset 的原始框架中,小样本条件下必须假定两总体方差相等才能合并信息,否则 t 统计量的精确分布难以确定。这一"等方差"假定直到 1947 年B. L. Welch提出Welch t 检验后才获得推广,后者不再要求方差相等。然而,当方差齐性条件确实成立时,等方 t 检验具有更优的统计效力(power),因此至今仍在实验设计和医学研究中广泛使用。

适用条件

两样本等方 t 检验的严格有效性依赖以下条件:

  • 独立性:两组样本内部及组间相互独立。通常通过随机抽样或随机分配实验单元来实现。
  • 正态性:两总体均服从正态分布。若总体偏离正态,在样本量足够大时(通常每群 n30 n \ge 30 )检验仍近似稳健,但严重偏态或存在极端异常值时可能失效。
  • 方差齐性(Homoscedasticity):σ12=σ22 \sigma_1^2 = \sigma_2^2 。这是该检验区别于 Welch t 检验的最核心条件。方差差异过大时,合并方差不具有代表性,检验的实际第I类错误率会偏离名义水平。

在实践中,方差齐性常用Levene检验Bartlett检验F检验\footnote{即 F=s12/s22 F = s_1^2 / s_2^2 ,检验两总体方差之比是否等于 1。}进行预检验。但需注意,预检验本身存在统计推断的连锁效应——方差齐性检验的结果会影响主检验的后续选择,从而影响整体的第I类错误率。

检验统计量

设两组独立样本的容量、均值和样本方差分别为:

  • 组1:n1 n_1 Xˉ1 \bar{X}_1 s12=1n11i=1n1(X1iXˉ1)2 s_1^2 = \frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_{1i}-\bar{X}_1)^2
  • 组2:n2 n_2 Xˉ2 \bar{X}_2 s22=1n21i=1n2(X2iXˉ2)2 s_2^2 = \frac{1}{n_2-1}\sum_{i=1}^{n_2}(X_{2i}-\bar{X}_2)^2

在方差齐性假设 σ12=σ22=σ2 \sigma_1^2 = \sigma_2^2 = \sigma^2 下,两样本方差 s12 s_1^2 s22 s_2^2 都是 σ2 \sigma^2 的无偏估计。将它们按各自的自由度加权平均,得到合并方差(Pooled Variance):

sp2=(n11)s12+(n21)s22n1+n22s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}

合并方差的自由度是 n1+n22 n_1 + n_2 - 2 ,反映了估计 σ2 \sigma^2 时损失了两个均值参数。两样本均值之差 Xˉ1Xˉ2 \bar{X}_1 - \bar{X}_2 的方差估计为 sp2(1/n1+1/n2) s_p^2(1/n_1 + 1/n_2) ,其标准误即 sp1/n1+1/n2 s_p \sqrt{1/n_1 + 1/n_2}

待检验的零假设为 H0:μ1μ2=d0 H_0: \mu_1 - \mu_2 = d_0 (通常 d0=0 d_0 = 0 ),检验统计量为:

t=(Xˉ1Xˉ2)d0sp1n1+1n2t = \frac{(\bar{X}_1 - \bar{X}_2) - d_0}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}

在零假设下,该统计量服从t分布,自由度为 ν=n1+n22 \nu = n_1 + n_2 - 2

检验步骤与决策规则

  1. 陈述假设H0:μ1μ2=d0 H_0: \mu_1 - \mu_2 = d_0 ;备择假设可为双侧(μ1μ2 \mu_1 \neq \mu_2 )、左尾(μ1<μ2 \mu_1 < \mu_2 )或右尾(μ1>μ2 \mu_1 > \mu_2 )。
  2. 设定显著性水平 α \alpha (通常 0.05 或 0.01)。
  3. 计算合并方差 sp2 s_p^2 与 t 统计量。
  4. 做出决策: \begin{itemize}
  5. 临界值法:双侧检验比较 t |t| tα/2,ν t_{\alpha/2, \nu} ;单侧检验比较 t t tα,ν t_{\alpha, \nu}
  6. P值法p=2P(Tν>t) p = 2P(T_\nu > |t|) (双侧),若 pα p \le \alpha 则拒绝 H0 H_0 。 \end{itemize}

效应量与置信区间

两总体均值差异的 100(1α)% 100(1-\alpha)\% 置信区间为:

(Xˉ1Xˉ2)±tα/2,νsp1n1+1n2(\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, \nu} \cdot s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}

该区间同时展示了差异的方向、大小与估计精度,比单一的 p 值提供更丰富的信息。对于效应量的标准化度量,常用Cohen's d

d=Xˉ1Xˉ2spd = \frac{\bar{X}_1 - \bar{X}_2}{s_p}

Cohen's d 以合并标准差为单位衡量两组均值差异,小、中、大效应分别对应约 0.2、0.5 和 0.8。

与 Welch t 检验的对比

Welch t 检验不假定方差相等,使用单独的样本方差 s12 s_1^2 s22 s_2^2 构造标准误,并通过 Welch-Satterthwaite 公式近似自由度:

νWelch(s12/n1+s22/n2)2(s12/n1)2/(n11)+(s22/n2)2/(n21)\nu_{\text{Welch}} \approx \frac{(s_1^2/n_1 + s_2^2/n_2)^2}{(s_1^2/n_1)^2/(n_1-1) + (s_2^2/n_2)^2/(n_2-1)}

两检验的关键权衡如下:当方差齐性满足时,等方 t 检验的统计效力更高,因为合并方差利用了全部样本信息来估计共同的 σ2 \sigma^2 ,自由度也更大;当方差不等时,等方 t 检验的实际第I类错误率可能严重偏离名义水平,此时 Welch t 检验更可靠。现代统计方法文献普遍建议:若不确知方差是否相等,应采用 Welch t 检验作为默认选择\footnote{Zimmerman(2004)的模拟研究表明,即使方差齐性成立,Welch t 检验的效力损失也极小。}。

数值示例

假设某医学实验比较两种降压药物的疗效。将 20 名患者随机均分为两组,组 A(药物 A)的收缩压下降量(mmHg)为:

15,18,12,20,16,14,19,17,13,1615, 18, 12, 20, 16, 14, 19, 17, 13, 16

组 B(药物 B)为:

10,8,14,11,9,12,7,13,10,610, 8, 14, 11, 9, 12, 7, 13, 10, 6

计算得 XˉA=16 \bar{X}_A = 16 sA2=7.11 s_A^2 = 7.11 XˉB=10 \bar{X}_B = 10 sB2=6.67 s_B^2 = 6.67 。合并方差为:

sp2=9×7.11+9×6.6718=124.02186.89s_p^2 = \frac{9 \times 7.11 + 9 \times 6.67}{18} = \frac{124.02}{18} \approx 6.89

检验 H0:μA=μB H_0: \mu_A = \mu_B 的 t 统计量为:

t=16106.892/10=62.625×0.44761.1745.11t = \frac{16 - 10}{\sqrt{6.89} \cdot \sqrt{2/10}} = \frac{6}{2.625 \times 0.447} \approx \frac{6}{1.174} \approx 5.11

自由度为 10+102=18 10 + 10 - 2 = 18 t0.025,182.101 t_{0.025,18} \approx 2.101 t=5.11>2.101 |t| = 5.11 > 2.101 ,故在 α=0.05 \alpha = 0.05 下拒绝 H0 H_0 。p 值 0.00007 \approx 0.00007 ,远小于 0.05。Cohen's d =6/6.892.29 = 6 / \sqrt{6.89} \approx 2.29 ,属于很大的效应量。95\% 置信区间为 6±2.101×1.174(3.53,8.47) 6 \pm 2.101 \times 1.174 \approx (3.53, 8.47)

方差齐性检验的注意事项

使用两样本等方 t 检验前,研究者常先进行方差齐性检验。常用方法包括:

  • F 检验F=s12/s22 F = s_1^2/s_2^2 ,在正态假设下 FFn11,n21 F \sim F_{n_1-1, n_2-1} 。它对非正态性较为敏感。
  • Levene 检验:以各组中位数为中心计算绝对离差,稳健性更强,是多数统计软件的默认选项。
  • Bartlett 检验:对正态性假设敏感,适用于正态数据。

需注意,方差齐性检验本身是假设检验,其统计效力在样本量较小时可能不足(即方差实际不等但未检出),而在样本量较大时又可能将微小且无实际意义的差异判定为显著。因此,一些统计学家主张放弃预检验,直接采用 Welch t 检验作为标准流程\footnote{参见 Ruxton(2006)在 Behavioral Ecology 上的讨论文章。}。

软件实现

主流统计软件均提供两样本等方 t 检验的实现。在 extbf{R} 中,调用 \verb|t.test(x, y, var.equal = TRUE)| 即执行等方差 t 检验;若设为 \verb|var.equal = FALSE| 则为 Welch t 检验。 extbf{Python} 的 \verb|scipy.stats.ttest\_ind(a, b, equal\_var=True)| 提供相同功能。 extbf{Stata} 使用 \verb|ttest var, by(group)| 并配合 \verb|unequal| 选项切换 Welch 版本。 extbf{SPSS} 的独立样本 t 检验同时输出等方差和 Welch 两套结果,使用者根据 Levene 检验的显著性选择读取哪一行即可。

常见误区

使用两样本等方 t 检验时应注意以下问题:第一,不可在发现差异方向后选择性报告单侧检验结果——检验方向应在数据分析之前根据研究假设确定;第二,方差齐性检验与主检验的 extbf{两步法}会使整体的第 I 类错误率发生偏移,且预检验本身的统计效力在样本量较小时有限;第三,当样本量极不均衡(如 n1=100 n_1=100 n2=5 n_2=5 )时,合并方差估计主要由大样本群驱动,小样本群的方差信息被严重稀释,此时即使方差齐性名义上成立,检验的稳健性也值得怀疑,应考虑使用 Welch 方法或非参数方法(如Mann-Whitney U检验)。

小 结

两样本等方 t 检验是两样本均值比较的经典方法,其理论基础坚固、计算简洁,在方差齐性条件满足时具有优良的统计效力。然而,它的适用依赖于正态性与方差齐性两项关键假设,研究者需根据数据特征审慎判断是否满足这些前提。当假设存疑时,Welch t 检验作为一种稳健的替代方案,已成为当代统计实践中的推荐默认方法。