ARTICLE
Welch's t-test
Welch's t-test (Welch's t-test) Welch's t-test(韦尔奇 t 检验),也称为 Welch's unequal variances t-test 或 aspin-Welch t-test,是由英国统计学家 Bernard Lewis Welch 于 1947 年提出的一种用于比较两个独立样本均值差异的统计检验方法。W
Welch's t-test (Welch's t-test)
Welch's t-test(韦尔奇 t 检验),也称为 Welch's unequal variances t-test 或 aspin-Welch t-test,是由英国统计学家 Bernard Lewis Welch 于 1947 年提出的一种用于比较两个独立样本均值差异的统计检验方法。Welch's t-test 是经典 Student's t-test 的推广与改良,其核心特征在于 不假设两个总体的方差相等。因此,它在统计学文献中常被称为 不等方差 t 检验 (unequal variance t-test)。
与经典的两样本 t 检验不同,Welch's t-test 通过调整自由度来校正由于方差不等所带来的推断偏误,从而在方差齐性假设不成立时提供更为可靠的假设检验结论。该方法与 Behrens-Fisher问题 有深刻的理论联系,是对该问题的一种实用近似解。
历史背景与理论渊源
Welch's t-test 的提出源于统计学中著名的 Behrens-Fisher 问题。该问题由德国统计学家 Walter-Ulrich Behrens 于 1929 年首次提出,后经 Ronald Fisher 的讨论而广为人知。问题的核心是:当两个正态总体的方差未知且不相等时,如何对两个总体均值之差进行假设检验?Fisher 曾主张使用 fiducial inference 来解决此问题,但该方法因其哲学基础的争议而未被广泛接受。
Welch 在 1938 年与 1947 年的两篇开创性论文中,提出了一种基于 Satterthwaite 近似 的方法。该方法的巧妙之处在于:构造一个服从近似 t 分布的检验统计量,其自由度通过样本方差和样本量的函数估算,使得检验能够适应方差不等的情形。由于 Welch 的推导基于 Satterthwaite 近似,该方法有时也被称为 Welch-Satterthwaite t-test。
数学模型与推导
问题设定
设有两个独立样本:
- 样本 1:
- 样本 2:
其中 与 均未知且不一定相等。检验问题为:
(或单侧备择假设 或 )。
检验统计量
Welch's t-test 的检验统计量为:
其中 和 分别是两样本的样本均值, 和 分别是两样本的样本方差。该统计量在 下近似服从自由度为 的 t 分布。
Welch-Satterthwaite 自由度公式
自由度的近似估计由 Welch-Satterthwaite 方程 给出:
该自由度的取值范围满足:
当 不是整数时,实践中通常向下取整或直接使用非整数值(现代统计软件如 R、Python 的 SciPy 均使用非整数自由度)。自由度越接近下限,表明方差不等的程度越严重。
推导原理:Satterthwaite 近似
Welch-Satterthwaite 自由度的推导基于以下思路。设:
在正态假设下,。差额方差的估计量是 两个独立缩放卡方变量的线性组合,其精确分布并非卡方分布。Satterthwaite (1946) 提出用一个缩放卡方分布来近似该线性组合的分布,通过 匹配二阶矩 来确定近似自由度。具体而言,令近似分布 的方差与原始线性组合的方差相等,从而解出 的表达式。这一近似在大样本下表现良好,且在中等样本量下也保持了令人满意的精度。
与 Student's t-test 的比较
Welch's t-test 与经典的 pooled t-test(合并方差 t 检验)的核心区别如下:
- 方差假设:Student's t-test 假设 ,并使用合并方差估计量 ;Welch's t-test 不假设方差相等,直接使用各样本各自的方差估计。
- 自由度:Student's t-test 使用 ;Welch's t-test 使用 Welch-Satterthwaite 自由度 ,该值通常小于 。
- 稳健性:当方差相等时,Welch's t-test 的检验功效仅比 Student's t-test 略微降低(即略为保守);当方差不相等时,Student's t-test 的 Type I error 率可能严重偏离名义水平,而 Welch's t-test 依然保持良好的控制。
大量 Monte Carlo simulation 研究表明:在绝大多数实际场景中,应优先使用 Welch's t-test 而非 Student's t-test。事实上,许多统计学教科书(如 Ruxton, 2006;Delacre et al., 2017)建议将 Welch's t-test 作为两样本均值比较的 默认方法,除非有充分的先验知识确信方差相等。
假设条件
Welch's t-test 的主要假设包括:
- 独立性:两个样本内部以及样本之间相互独立。
- 正态性:两个总体均服从正态分布(或样本量足够大,使得 Central Limit Theorem 适用)。
- 测量尺度:数据至少为区间尺度(interval scale)。
值得注意的是,Welch's t-test 不要求方差齐性 (homoscedasticity),这是其相较于 Student's t-test 的核心优势。当正态性假设受到质疑时,可考虑使用非参数替代方法,如 Mann-Whitney U test。
假设检验程序
Welch's t-test 的完整检验流程如下:
- 提出假设:设定 与相应的备择假设。
- 计算检验统计量:根据公式计算 t 值。
- 计算自由度:根据 Welch-Satterthwaite 公式计算 。
- 确定临界值或 p 值:在双侧检验中,若 ,则拒绝 ;p 值为 。
- 得出结论:结合显著性水平 做出统计推断。
置信区间
Welch's t-test 还可用于构建两个总体均值之差 的置信区间:
该置信区间在方差不等时比基于合并方差的区间具有更好的覆盖率 (coverage probability)。这一性质在 生物统计学、计量经济学 和心理学实验的数据分析中尤为重要。
效应量
与任何假设检验一样,统计显著性不等同于实际重要性。Welch's t-test 常配合以下效应量指标使用:
- Cohen's d(使用合并标准差,或使用各组标准差的均方根作为标准化因子)。
- Hedges' g:Cohen's d 的小样本校正版本,在样本量较小时偏差更小。
- Glass's :当两组方差差异较大时,建议使用对照组的标准差作为标准化因子。
在汇报 Welch's t-test 结果时,应同时报告效应量及其置信区间,以提供更完整的推断信息。
软件实现
Welch's t-test 在主流统计软件中的实现如下:
- R:函数 \texttt{t.test(x, y, var.equal = FALSE)},其中默认参数 \texttt{var.equal = FALSE} 即使用 Welch's t-test。
- Python:\texttt{scipy.stats.ttest\_ind(x, y, equal\_var=False)}。
- Stata:命令 \texttt{ttest varname, by(groupvar) unequal}。
- SPSS:在 Independent-Samples T Test 对话框中选择 "不假设方差相等"。
值得注意的是,R 的默认行为即为 Welch's t-test,这反映了现代统计学界对该方法的普遍认可。
优点与局限性
主要优点:
- 在方差不等时保持准确的 Type I error 率。
- 在方差相等时,功效损失极小,具有近乎同等的检验效能。
- 不依赖于对方差齐性的预检验(如 Levene's test 或 F-test for equality of variances),避免了预检验本身引入的多重检验问题。
- 广泛应用于各学科,是统计推断教学和实践中的标准工具。
主要局限性:
- 依赖于正态性假设。当样本量较小且数据严重偏离正态分布时,检验的准确性会受到影响。
- Welch-Satterthwaite 自由度是一种近似,在极端小样本或不平衡程度极高时可能不够精确。
- 仅适用于两独立样本的均值比较,不适用于配对样本或多样本情形(配对设计应使用 Paired t-test,多样本比较应使用 ANOVA 或其 Welch 修正版)。
扩展与变体
Welch 的方差不等思想已从两样本 t 检验扩展到更广泛的统计框架中:
- Welch's ANOVA:在单因素方差分析中,当各组方差不相等时,使用 Welch (1951) 提出的修正 F 检验。该方法调整了分子和分母的自由度,以适应组间方差的异质性。
- Games-Howell 事后检验:基于 Welch 思想的多重比较方法,适用于方差不等的成对比较场景。
- Welch 校正的回归推断:在 heteroskedasticity 存在时,使用 Huber-White 稳健标准误可视为 Welch 思想在回归框架下的推广。
这些扩展使得 Welch 的方差稳健推断方法成为现代统计实践中不可或缺的一部分。在计量经济学中,对异方差性的一致标准误估计(如 Eicker-Huber-White standard errors)与 Welch 的思想在精神上一脉相承。
实际应用建议
综合当前统计学方法论的主流观点,给出以下应用建议:
- 默认使用 Welch's t-test:除非有极强的先验信息(例如来自物理测量或工程实验的同质方差保证),否则在两独立样本均值比较时,应优先选择 Welch's t-test。
- 避免预检验:不应先进行方差齐性检验(如 Levene's test)再选择 t 检验类型,因为这种两阶段策略会扭曲最终的 Type I error 率和检验功效。
- 检查样本量平衡:当两组样本量差异较大且方差差异也较大时,Student's t-test 的表现尤为不佳,此时 Welch's t-test 的优势最为显著。
- 报告完整信息:汇报 Welch's t-test 结果时,应包含 t 值、Welch-Satterthwaite 自由度、p 值、效应量及其置信区间。
这些建议已被 American Psychological Association (APA) 的统计报告标准以及众多领域的主流期刊所认可。