ARTICLE

Welch's t-test

Welch's t-test (Welch's t-test) Welch's t-test(韦尔奇 t 检验),也称为 Welch's unequal variances t-test 或 aspin-Welch t-test,是由英国统计学家 Bernard Lewis Welch 于 1947 年提出的一种用于比较两个独立样本均值差异的统计检验方法。W

浏览 0 更新 2025-10-26

Welch's t-test (Welch's t-test)

Welch's t-test(韦尔奇 t 检验),也称为 Welch's unequal variances t-testaspin-Welch t-test,是由英国统计学家 Bernard Lewis Welch 于 1947 年提出的一种用于比较两个独立样本均值差异的统计检验方法。Welch's t-test 是经典 Student's t-test 的推广与改良,其核心特征在于 不假设两个总体的方差相等。因此,它在统计学文献中常被称为 不等方差 t 检验 (unequal variance t-test)。

与经典的两样本 t 检验不同,Welch's t-test 通过调整自由度来校正由于方差不等所带来的推断偏误,从而在方差齐性假设不成立时提供更为可靠的假设检验结论。该方法与 Behrens-Fisher问题 有深刻的理论联系,是对该问题的一种实用近似解。

历史背景与理论渊源

Welch's t-test 的提出源于统计学中著名的 Behrens-Fisher 问题。该问题由德国统计学家 Walter-Ulrich Behrens 于 1929 年首次提出,后经 Ronald Fisher 的讨论而广为人知。问题的核心是:当两个正态总体的方差未知且不相等时,如何对两个总体均值之差进行假设检验?Fisher 曾主张使用 fiducial inference 来解决此问题,但该方法因其哲学基础的争议而未被广泛接受。

Welch 在 1938 年与 1947 年的两篇开创性论文中,提出了一种基于 Satterthwaite 近似 的方法。该方法的巧妙之处在于:构造一个服从近似 t 分布的检验统计量,其自由度通过样本方差和样本量的函数估算,使得检验能够适应方差不等的情形。由于 Welch 的推导基于 Satterthwaite 近似,该方法有时也被称为 Welch-Satterthwaite t-test

数学模型与推导

问题设定

设有两个独立样本:

  • 样本 1:X11,X12,,X1n1N(μ1,σ12) X_{11}, X_{12}, \ldots, X_{1n_1} \sim \mathcal{N}(\mu_1, \sigma_1^2)
  • 样本 2:X21,X22,,X2n2N(μ2,σ22) X_{21}, X_{22}, \ldots, X_{2n_2} \sim \mathcal{N}(\mu_2, \sigma_2^2)

其中 σ12\sigma_1^2σ22\sigma_2^2 均未知且不一定相等。检验问题为:

H0:μ1=μ2vsH1:μ1μ2H_0: \mu_1 = \mu_2 \quad \text{vs} \quad H_1: \mu_1 \neq \mu_2

(或单侧备择假设 μ1>μ2\mu_1 > \mu_2μ1<μ2\mu_1 < \mu_2)。

检验统计量

Welch's t-test 的检验统计量为:

t=Xˉ1Xˉ2s12n1+s22n2t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

其中 Xˉ1\bar{X}_1Xˉ2\bar{X}_2 分别是两样本的样本均值,s12s_1^2s22s_2^2 分别是两样本的样本方差。该统计量在 H0H_0 下近似服从自由度为 ν\nu 的 t 分布。

Welch-Satterthwaite 自由度公式

自由度的近似估计由 Welch-Satterthwaite 方程 给出:

ν=(s12n1+s22n2)2(s12/n1)2n11+(s22/n2)2n21\nu = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2} {\frac{(s_1^2 / n_1)^2}{n_1 - 1} + \frac{(s_2^2 / n_2)^2}{n_2 - 1}}

该自由度的取值范围满足:

min(n11,n21)νn1+n22\min(n_1 - 1, n_2 - 1) \leq \nu \leq n_1 + n_2 - 2

ν\nu 不是整数时,实践中通常向下取整或直接使用非整数值(现代统计软件如 R、Python 的 SciPy 均使用非整数自由度)。自由度越接近下限,表明方差不等的程度越严重。

推导原理:Satterthwaite 近似

Welch-Satterthwaite 自由度的推导基于以下思路。设:

Var^(Xˉ1Xˉ2)=s12n1+s22n2\widehat{\text{Var}}(\bar{X}_1 - \bar{X}_2) = \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}

在正态假设下,(ni1)si2/σi2χni12(n_i - 1) s_i^2 / \sigma_i^2 \sim \chi^2_{n_i - 1}。差额方差的估计量是 两个独立缩放卡方变量的线性组合,其精确分布并非卡方分布。Satterthwaite (1946) 提出用一个缩放卡方分布来近似该线性组合的分布,通过 匹配二阶矩 来确定近似自由度。具体而言,令近似分布 χν2/ν\chi^2_{\nu} / \nu 的方差与原始线性组合的方差相等,从而解出 ν\nu 的表达式。这一近似在大样本下表现良好,且在中等样本量下也保持了令人满意的精度。

与 Student's t-test 的比较

Welch's t-test 与经典的 pooled t-test(合并方差 t 检验)的核心区别如下:

  • 方差假设:Student's t-test 假设 σ12=σ22\sigma_1^2 = \sigma_2^2,并使用合并方差估计量 sp2=(n11)s12+(n21)s22n1+n22 s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2} ;Welch's t-test 不假设方差相等,直接使用各样本各自的方差估计。
  • 自由度:Student's t-test 使用 n1+n22 n_1 + n_2 - 2 ;Welch's t-test 使用 Welch-Satterthwaite 自由度 ν\nu,该值通常小于 n1+n22 n_1 + n_2 - 2
  • 稳健性:当方差相等时,Welch's t-test 的检验功效仅比 Student's t-test 略微降低(即略为保守);当方差不相等时,Student's t-test 的 Type I error 率可能严重偏离名义水平,而 Welch's t-test 依然保持良好的控制。

大量 Monte Carlo simulation 研究表明:在绝大多数实际场景中,应优先使用 Welch's t-test 而非 Student's t-test。事实上,许多统计学教科书(如 Ruxton, 2006;Delacre et al., 2017)建议将 Welch's t-test 作为两样本均值比较的 默认方法,除非有充分的先验知识确信方差相等。

假设条件

Welch's t-test 的主要假设包括:

  1. 独立性:两个样本内部以及样本之间相互独立。
  2. 正态性:两个总体均服从正态分布(或样本量足够大,使得 Central Limit Theorem 适用)。
  3. 测量尺度:数据至少为区间尺度(interval scale)。

值得注意的是,Welch's t-test 不要求方差齐性 (homoscedasticity),这是其相较于 Student's t-test 的核心优势。当正态性假设受到质疑时,可考虑使用非参数替代方法,如 Mann-Whitney U test

假设检验程序

Welch's t-test 的完整检验流程如下:

  1. 提出假设:设定 H0:μ1=μ2H_0: \mu_1 = \mu_2 与相应的备择假设。
  2. 计算检验统计量:根据公式计算 t 值。
  3. 计算自由度:根据 Welch-Satterthwaite 公式计算 ν\nu
  4. 确定临界值或 p 值:在双侧检验中,若 t>tα/2,ν|t| > t_{\alpha/2, \nu},则拒绝 H0H_0;p 值为 2×P(Tν>t)2 \times P(T_\nu > |t|)
  5. 得出结论:结合显著性水平 α\alpha 做出统计推断。

置信区间

Welch's t-test 还可用于构建两个总体均值之差 μ1μ2\mu_1 - \mu_2 的置信区间:

(Xˉ1Xˉ2)±tα/2,ν×s12n1+s22n2(\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, \nu} \times \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}

该置信区间在方差不等时比基于合并方差的区间具有更好的覆盖率 (coverage probability)。这一性质在 生物统计学计量经济学 和心理学实验的数据分析中尤为重要。

效应量

与任何假设检验一样,统计显著性不等同于实际重要性。Welch's t-test 常配合以下效应量指标使用:

  • Cohen's d(使用合并标准差,或使用各组标准差的均方根作为标准化因子)。
  • Hedges' g:Cohen's d 的小样本校正版本,在样本量较小时偏差更小。
  • Glass's Δ\Delta:当两组方差差异较大时,建议使用对照组的标准差作为标准化因子。

在汇报 Welch's t-test 结果时,应同时报告效应量及其置信区间,以提供更完整的推断信息。

软件实现

Welch's t-test 在主流统计软件中的实现如下:

  • R:函数 \texttt{t.test(x, y, var.equal = FALSE)},其中默认参数 \texttt{var.equal = FALSE} 即使用 Welch's t-test。
  • Python:\texttt{scipy.stats.ttest\_ind(x, y, equal\_var=False)}。
  • Stata:命令 \texttt{ttest varname, by(groupvar) unequal}。
  • SPSS:在 Independent-Samples T Test 对话框中选择 "不假设方差相等"。

值得注意的是,R 的默认行为即为 Welch's t-test,这反映了现代统计学界对该方法的普遍认可。

优点与局限性

主要优点:

  • 在方差不等时保持准确的 Type I error 率。
  • 在方差相等时,功效损失极小,具有近乎同等的检验效能。
  • 不依赖于对方差齐性的预检验(如 Levene's testF-test for equality of variances),避免了预检验本身引入的多重检验问题。
  • 广泛应用于各学科,是统计推断教学和实践中的标准工具。

主要局限性:

  • 依赖于正态性假设。当样本量较小且数据严重偏离正态分布时,检验的准确性会受到影响。
  • Welch-Satterthwaite 自由度是一种近似,在极端小样本或不平衡程度极高时可能不够精确。
  • 仅适用于两独立样本的均值比较,不适用于配对样本或多样本情形(配对设计应使用 Paired t-test,多样本比较应使用 ANOVA 或其 Welch 修正版)。

扩展与变体

Welch 的方差不等思想已从两样本 t 检验扩展到更广泛的统计框架中:

  • Welch's ANOVA:在单因素方差分析中,当各组方差不相等时,使用 Welch (1951) 提出的修正 F 检验。该方法调整了分子和分母的自由度,以适应组间方差的异质性。
  • Games-Howell 事后检验:基于 Welch 思想的多重比较方法,适用于方差不等的成对比较场景。
  • Welch 校正的回归推断:在 heteroskedasticity 存在时,使用 Huber-White 稳健标准误可视为 Welch 思想在回归框架下的推广。

这些扩展使得 Welch 的方差稳健推断方法成为现代统计实践中不可或缺的一部分。在计量经济学中,对异方差性的一致标准误估计(如 Eicker-Huber-White standard errors)与 Welch 的思想在精神上一脉相承。

实际应用建议

综合当前统计学方法论的主流观点,给出以下应用建议:

  1. 默认使用 Welch's t-test:除非有极强的先验信息(例如来自物理测量或工程实验的同质方差保证),否则在两独立样本均值比较时,应优先选择 Welch's t-test。
  2. 避免预检验:不应先进行方差齐性检验(如 Levene's test)再选择 t 检验类型,因为这种两阶段策略会扭曲最终的 Type I error 率和检验功效。
  3. 检查样本量平衡:当两组样本量差异较大且方差差异也较大时,Student's t-test 的表现尤为不佳,此时 Welch's t-test 的优势最为显著。
  4. 报告完整信息:汇报 Welch's t-test 结果时,应包含 t 值、Welch-Satterthwaite 自由度、p 值、效应量及其置信区间。

这些建议已被 American Psychological Association (APA) 的统计报告标准以及众多领域的主流期刊所认可。