ARTICLE

Welch's t-test

Welch's t-test (Welch's t-test) Welch's t-test（韦尔奇 t 检验），也称为 Welch's unequal variances t-test 或 aspin-Welch t-test，是由英国统计学家 Bernard Lewis Welch 于 1947 年提出的一种用于比较两个独立样本均值差异的统计检验方法。W

浏览 0 更新 2025-10-26

Welch's t-test (Welch's t-test)

Welch's t-test（韦尔奇 t 检验），也称为 Welch's unequal variances t-test 或 aspin-Welch t-test，是由英国统计学家 Bernard Lewis Welch 于 1947 年提出的一种用于比较两个独立样本均值差异的统计检验方法。Welch's t-test 是经典 Student's t-test 的推广与改良，其核心特征在于 不假设两个总体的方差相等。因此，它在统计学文献中常被称为 不等方差 t 检验 (unequal variance t-test)。

与经典的两样本 t 检验不同，Welch's t-test 通过调整自由度来校正由于方差不等所带来的推断偏误，从而在方差齐性假设不成立时提供更为可靠的假设检验结论。该方法与 Behrens-Fisher问题有深刻的理论联系，是对该问题的一种实用近似解。

历史背景与理论渊源

Welch's t-test 的提出源于统计学中著名的 Behrens-Fisher 问题。该问题由德国统计学家 Walter-Ulrich Behrens 于 1929 年首次提出，后经 Ronald Fisher 的讨论而广为人知。问题的核心是：当两个正态总体的方差未知且不相等时，如何对两个总体均值之差进行假设检验？Fisher 曾主张使用 fiducial inference 来解决此问题，但该方法因其哲学基础的争议而未被广泛接受。

Welch 在 1938 年与 1947 年的两篇开创性论文中，提出了一种基于 Satterthwaite 近似 的方法。该方法的巧妙之处在于：构造一个服从近似 t 分布的检验统计量，其自由度通过样本方差和样本量的函数估算，使得检验能够适应方差不等的情形。由于 Welch 的推导基于 Satterthwaite 近似，该方法有时也被称为 Welch-Satterthwaite t-test。

数学模型与推导

问题设定

设有两个独立样本：

样本 1： $X_{11}, X_{12}, \ldots, X_{1n_1} \sim \mathcal{N}(\mu_1, \sigma_1^2)$
样本 2： $X_{21}, X_{22}, \ldots, X_{2n_2} \sim \mathcal{N}(\mu_2, \sigma_2^2)$

其中 $\sigma_1^2$ 与 $\sigma_2^2$ 均未知且不一定相等。检验问题为：

H_0: \mu_1 = \mu_2 \quad \text{vs} \quad H_1: \mu_1 \neq \mu_2

（或单侧备择假设 $\mu_1 > \mu_2$ 或 $\mu_1 < \mu_2$ ）。

检验统计量

Welch's t-test 的检验统计量为：

t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

其中 $\bar{X}_1$ 和 $\bar{X}_2$ 分别是两样本的样本均值， $s_1^2$ 和 $s_2^2$ 分别是两样本的样本方差。该统计量在 $H_0$ 下近似服从自由度为 $\nu$ 的 t 分布。

Welch-Satterthwaite 自由度公式

自由度的近似估计由 Welch-Satterthwaite 方程 给出：

\nu = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2} {\frac{(s_1^2 / n_1)^2}{n_1 - 1} + \frac{(s_2^2 / n_2)^2}{n_2 - 1}}

该自由度的取值范围满足：

\min(n_1 - 1, n_2 - 1) \leq \nu \leq n_1 + n_2 - 2

当 $\nu$ 不是整数时，实践中通常向下取整或直接使用非整数值（现代统计软件如 R、Python 的 SciPy 均使用非整数自由度）。自由度越接近下限，表明方差不等的程度越严重。

推导原理：Satterthwaite 近似

Welch-Satterthwaite 自由度的推导基于以下思路。设：

\widehat{\text{Var}}(\bar{X}_1 - \bar{X}_2) = \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}

在正态假设下， $(n_i - 1) s_i^2 / \sigma_i^2 \sim \chi^2_{n_i - 1}$ 。差额方差的估计量是 两个独立缩放卡方变量的线性组合，其精确分布并非卡方分布。Satterthwaite (1946) 提出用一个缩放卡方分布来近似该线性组合的分布，通过 匹配二阶矩 来确定近似自由度。具体而言，令近似分布 $\chi^2_{\nu} / \nu$ 的方差与原始线性组合的方差相等，从而解出 $\nu$ 的表达式。这一近似在大样本下表现良好，且在中等样本量下也保持了令人满意的精度。

与 Student's t-test 的比较

Welch's t-test 与经典的 pooled t-test（合并方差 t 检验）的核心区别如下：

方差假设：Student's t-test 假设 $\sigma_1^2 = \sigma_2^2$ ，并使用合并方差估计量 $s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}$ ；Welch's t-test 不假设方差相等，直接使用各样本各自的方差估计。
自由度：Student's t-test 使用 $n_1 + n_2 - 2$ ；Welch's t-test 使用 Welch-Satterthwaite 自由度 $\nu$ ，该值通常小于 $n_1 + n_2 - 2$ 。
稳健性：当方差相等时，Welch's t-test 的检验功效仅比 Student's t-test 略微降低（即略为保守）；当方差不相等时，Student's t-test 的 Type I error 率可能严重偏离名义水平，而 Welch's t-test 依然保持良好的控制。

大量 Monte Carlo simulation 研究表明：在绝大多数实际场景中，应优先使用 Welch's t-test 而非 Student's t-test。事实上，许多统计学教科书（如 Ruxton, 2006；Delacre et al., 2017）建议将 Welch's t-test 作为两样本均值比较的 默认方法，除非有充分的先验知识确信方差相等。

假设条件

Welch's t-test 的主要假设包括：

独立性：两个样本内部以及样本之间相互独立。
正态性：两个总体均服从正态分布（或样本量足够大，使得 Central Limit Theorem 适用）。
测量尺度：数据至少为区间尺度（interval scale）。

值得注意的是，Welch's t-test 不要求方差齐性 (homoscedasticity)，这是其相较于 Student's t-test 的核心优势。当正态性假设受到质疑时，可考虑使用非参数替代方法，如 Mann-Whitney U test。

假设检验程序

Welch's t-test 的完整检验流程如下：

提出假设：设定 $H_0: \mu_1 = \mu_2$ 与相应的备择假设。
计算检验统计量：根据公式计算 t 值。
计算自由度：根据 Welch-Satterthwaite 公式计算 $\nu$ 。
确定临界值或 p 值：在双侧检验中，若 $|t| > t_{\alpha/2, \nu}$ ，则拒绝 $H_0$ ；p 值为 $2 \times P(T_\nu > |t|)$ 。
得出结论：结合显著性水平 $\alpha$ 做出统计推断。

置信区间

Welch's t-test 还可用于构建两个总体均值之差 $\mu_1 - \mu_2$ 的置信区间：

(\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, \nu} \times \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}

该置信区间在方差不等时比基于合并方差的区间具有更好的覆盖率 (coverage probability)。这一性质在生物统计学、计量经济学和心理学实验的数据分析中尤为重要。

效应量

与任何假设检验一样，统计显著性不等同于实际重要性。Welch's t-test 常配合以下效应量指标使用：

Cohen's d（使用合并标准差，或使用各组标准差的均方根作为标准化因子）。
Hedges' g：Cohen's d 的小样本校正版本，在样本量较小时偏差更小。
Glass's $\Delta$ ：当两组方差差异较大时，建议使用对照组的标准差作为标准化因子。

在汇报 Welch's t-test 结果时，应同时报告效应量及其置信区间，以提供更完整的推断信息。

软件实现

Welch's t-test 在主流统计软件中的实现如下：

R：函数 \texttt{t.test(x, y, var.equal = FALSE)}，其中默认参数 \texttt{var.equal = FALSE} 即使用 Welch's t-test。
Python：\texttt{scipy.stats.ttest\_ind(x, y, equal\_var=False)}。
Stata：命令 \texttt{ttest varname, by(groupvar) unequal}。
SPSS：在 Independent-Samples T Test 对话框中选择 "不假设方差相等"。

值得注意的是，R 的默认行为即为 Welch's t-test，这反映了现代统计学界对该方法的普遍认可。

优点与局限性

主要优点：

在方差不等时保持准确的 Type I error 率。
在方差相等时，功效损失极小，具有近乎同等的检验效能。
不依赖于对方差齐性的预检验（如 Levene's test 或 F-test for equality of variances），避免了预检验本身引入的多重检验问题。
广泛应用于各学科，是统计推断教学和实践中的标准工具。

主要局限性：

依赖于正态性假设。当样本量较小且数据严重偏离正态分布时，检验的准确性会受到影响。
Welch-Satterthwaite 自由度是一种近似，在极端小样本或不平衡程度极高时可能不够精确。
仅适用于两独立样本的均值比较，不适用于配对样本或多样本情形（配对设计应使用 Paired t-test，多样本比较应使用 ANOVA 或其 Welch 修正版）。

扩展与变体

Welch 的方差不等思想已从两样本 t 检验扩展到更广泛的统计框架中：

Welch's ANOVA：在单因素方差分析中，当各组方差不相等时，使用 Welch (1951) 提出的修正 F 检验。该方法调整了分子和分母的自由度，以适应组间方差的异质性。
Games-Howell 事后检验：基于 Welch 思想的多重比较方法，适用于方差不等的成对比较场景。
Welch 校正的回归推断：在 heteroskedasticity 存在时，使用 Huber-White 稳健标准误可视为 Welch 思想在回归框架下的推广。

这些扩展使得 Welch 的方差稳健推断方法成为现代统计实践中不可或缺的一部分。在计量经济学中，对异方差性的一致标准误估计（如 Eicker-Huber-White standard errors）与 Welch 的思想在精神上一脉相承。

实际应用建议

综合当前统计学方法论的主流观点，给出以下应用建议：

默认使用 Welch's t-test：除非有极强的先验信息（例如来自物理测量或工程实验的同质方差保证），否则在两独立样本均值比较时，应优先选择 Welch's t-test。
避免预检验：不应先进行方差齐性检验（如 Levene's test）再选择 t 检验类型，因为这种两阶段策略会扭曲最终的 Type I error 率和检验功效。
检查样本量平衡：当两组样本量差异较大且方差差异也较大时，Student's t-test 的表现尤为不佳，此时 Welch's t-test 的优势最为显著。
报告完整信息：汇报 Welch's t-test 结果时，应包含 t 值、Welch-Satterthwaite 自由度、p 值、效应量及其置信区间。

这些建议已被 American Psychological Association (APA) 的统计报告标准以及众多领域的主流期刊所认可。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。