ARTICLE

Welch's t检验

Welch's t检验 (Welch's t-test) Welch's t检验（Welch's t-test），亦称不等方差t检验或韦尔奇t检验，由英国统计学家Bernard Lewis Welch于1947年提出，是两独立样本均值比较的假设检验方法。与经典的Student t检验不同，Welch's t检验不要求两总体方差相等，因此在方差齐性假设不满足时

浏览 0 更新 2025-11-08

Welch's t检验 (Welch's t-test)

Welch's t检验（Welch's t-test），亦称不等方差t检验或韦尔奇t检验，由英国统计学家Bernard Lewis Welch于1947年提出，是两独立样本均值比较的假设检验方法。与经典的Student t检验不同，Welch's t检验不要求两总体方差相等，因此在方差齐性假设不满足时具有显著更优的第一类错误率控制。该方法直接回应了统计学中的经典难题——Behrens-Fisher问题，即当两个正态总体的方差未知且不等时，如何对均值差异进行有效推断。当代统计实践普遍推荐将Welch's t检验而非传统Student t检验作为两样本均值比较的默认方法，R语言的 \texttt{t.test} 函数也将Welch版本设为默认（\texttt{var.equal = FALSE}）。

核心思想与适用场景

Welch's t检验的核心创新在于放弃合并方差估计（pooled variance），转而分别使用各组样本方差构造检验统计量，并通过修正自由度来补偿方差不等带来的分布偏差。这一设计哲学可概括为"让每组数据自己说话"。

适用场景包括：两组样本量差异悬殊（如 $n_1 = 10$ ， $n_2 = 100$ ）且方差不等；Levene检验或Bartlett检验拒绝了方差齐性的零假设；实验组与对照组的处理效应不仅影响均值，也影响变异程度（例如药物对不同个体的反应异质性）；来自不同总体的观测数据（不同国家、不同时期），方差的异质性是结构性的而非偶然的。

大量蒙特卡洛模拟研究（如Ruxton, 2006, Behavioral Ecology）表明：即使在方差相等的情况下使用Welch's t检验，统计功效的损失也微乎其微（通常低于2\%）；而在方差不等时，传统Student t检验的第一类错误率会严重偏离名义水平——当小样本组的方差更大时，假阳性率可能膨胀至名义 $\alpha$ 的两倍以上；反之，当大样本组的方差更大时，检验又过于保守。Welch's t检验在两类情况下均能维持接近名义水平的错误率，是一种"安全默认"（safe default）。

检验统计量

设两独立样本的观测值为 $X_{11}, X_{12}, \ldots, X_{1n_1}$ 和 $X_{21}, X_{22}, \ldots, X_{2n_2}$ ，分别来自正态总体 $N(\mu_1, \sigma_1^2)$ 和 $N(\mu_2, \sigma_2^2)$ ，其中 $\sigma_1^2$ 和 $\sigma_2^2$ 均未知且不一定相等。Welch's t检验的统计量为：

t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

其中 $\bar{X}_i = \frac{1}{n_i} \sum_{j=1}^{n_i} X_{ij}$ 为第 $i$ 组的样本均值， $s_i^2 = \frac{1}{n_i - 1} \sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2$ 为第 $i$ 组的样本方差。分母 $\sqrt{s_1^2/n_1 + s_2^2/n_2}$ 是 $\text{Var}(\bar{X}_1 - \bar{X}_2)$ 的无偏估计量。

与传统Student t检验的关键区别在于分母：Student t检验使用合并方差 $s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}$ 并强加 $\sigma_1^2 = \sigma_2^2$ 的约束，而Welch统计量直接使用两组方差估计的简单求和，不对方差施加等式约束。这使Welch统计量在方差不等时仍然有效。

自由度：Welch-Satterthwaite方程

Welch's t检验的近似自由度由Welch-Satterthwaite方程给出：

\nu = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}{\frac{(s_1^2 / n_1)^2}{n_1 - 1} + \frac{(s_2^2 / n_2)^2}{n_2 - 1}}

该自由度由Satterthwaite（1946）的矩匹配法（Method of Moments）推导而来：将两个独立卡方随机变量的加权和用一个缩放卡方变量近似，匹配前两阶矩即得上述表达式。 $\nu$ 的取值范围介于 $\min(n_1 - 1, n_2 - 1)$ 和 $n_1 + n_2 - 2$ 之间，通常不是整数——现代统计软件直接使用非整数值查询t分布计算p值，无需取整。

在零假设 $H_0: \mu_1 = \mu_2$ 下，上述t统计量近似服从自由度为 $\nu$ 的t分布。据此可计算双尾或单尾的p值，亦可构造均值差异的置信区间：

(\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, \nu} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}

其中 $t_{\alpha/2, \nu}$ 是自由度为 $\nu$ 的t分布的上 $\alpha/2$ 分位数。

假设条件

Welch's t检验保留了两项核心假设，但明确放松了方差齐性要求：

观测独立性：两组内部及两组之间的观测相互独立。这是不可放松的底线——违反独立性（如重复测量、聚类数据）将导致标准误的低估和假阳性率膨胀。对于配对或重复测量设计，应使用配对样本t检验或线性混合效应模型。

正态性：两总体分别服从或近似服从正态分布。根据中心极限定理，当每组样本量充分大（通常 $n_i > 30$ ）时，t检验对正态性偏离具有稳健性。对于严重偏态分布或极小样本，可考虑Mann-Whitney U检验或自助法（Bootstrap-t）。

不等方差可接受：Welch's t检验不要求 $\sigma_1^2 = \sigma_2^2$ ，因此无需事先进行方差齐性检验。实际上，先检验方差齐性再选择t检验版本的两步策略（two-step procedure）已被多篇方法论论文批评：第一步检验的有限功效使得后续选择的统计性质难以控制（Zimmerman, 2004, British Journal of Mathematical and Statistical Psychology）。直接默认使用Welch's t检验可规避这一问题。

效应量

假设检验的显著性（p值）仅回答"差异是否存在"，不反映差异的大小。Welch's t检验的效应量通常使用科恩d值（Cohen's d），但由于不等方差，合并标准差的定义需审慎处理。常见方案包括：使用Glass's $\Delta$ （以对照组标准差为分母，适用于实验设计）；或使用Hedges' g的校正版本，以两组标准差的均方根 $\sqrt{(s_1^2 + s_2^2)/2}$ 作为标准化因子。在实际报告中，APA格式要求同时呈现检验统计量、自由度、p值、效应量及其置信区间，以提供完整的推断图景。

与其他方法的系统比较

两样本均值比较的方法选择可沿以下逻辑展开：

如果正态性和独立性假设成立，Welch's t检验应作为默认选择。若方差确实相等且样本量也相等，Student t检验等价于Welch's t检验（此时 $s_p^2 / n = (s_1^2/n_1 + s_2^2/n_2)$ ）。当样本量相等时，Student t检验对不等方差也具有一定稳健性（模拟研究表明， $n_1 = n_2$ 时第一类错误率的偏离幅度远小于不等样本量情形），但Welch版本在所有情形下均不劣于Student版本。

若不满足正态性假设，Mann-Whitney U检验是非参数替代，但检验的是随机优势（stochastic dominance）而非均值差异本身；当分布形状不同时，显著的Mann-Whitney检验可能反映的是方差或偏度差异而非均值差异。自助法（Bootstrap-t）是另一替代方案，直接对t统计量的抽样分布进行非参数逼近，但计算成本较高且在小样本中表现不够稳定。

在方差分析（ANOVA）框架中，Welch的思想被推广为Welch ANOVA（使用广义Welch-Satterthwaite自由度）。在线性回归中，使用异方差稳健标准误（HC1、HC3等）结合Satterthwaite自由度校正，可视为Welch方法的回归版本，适用于多变量情形。

经济学与计量经济学应用

在计量经济学中，Welch's t检验广泛应用于政策评估与因果推断的初步和辅助分析：比较处理组与对照组的基线协变量均值，以检查随机化或匹配的质量；在差异中差异（DiD）设计中，检验处理组与对照组在干预前趋势的平行性（placebo test）；在断点回归（RDD）中，检验前定协变量在断点两侧的连续性以支持识别假设。经济数据的异方差性是普遍现象——不同规模企业的行为波动、不同收入群体的消费变异、不同市场的价格离散程度天然存在差异——Welch's t检验在这些场景中提供了比传统Student t检验更可靠的第一类错误率控制，是实证研究者应熟练掌握的基本工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。