两样本等方 t 检验 (Two-Sample Equal-Variance t-Test) 两样本等方 t 检验,又称合并方差 t 检验(Pooled t-Test)或学生 t 检验的两样本版本,是用于比较两个独立正态总体均值差异的最经典参数检验方法。其核心假设是两个总体的方差相等(方差齐性),在此前提下将两组样本的方差信息合并为一个更稳定的总体方差估计,从
浏览 0更新 2025-10-26
两样本等方 t 检验 (Two-Sample Equal-Variance t-Test)
两样本等方 t 检验,又称合并方差 t 检验(Pooled t-Test)或学生 t 检验的两样本版本,是用于比较两个独立正态总体均值差异的最经典参数检验方法。其核心假设是两个总体的方差相等(方差齐性),在此前提下将两组样本的方差信息合并为一个更稳定的总体方差估计,从而构造 t 统计量。
基本概念与历史背景
两样本等方 t 检验的数学基础由William Sealy Gosset(笔名 Student)于 1908 年奠基,后经Ronald Fisher进一步发展。在 Gosset 的原始框架中,小样本条件下必须假定两总体方差相等才能合并信息,否则 t 统计量的精确分布难以确定。这一"等方差"假定直到 1947 年B. L. Welch提出Welch t 检验后才获得推广,后者不再要求方差相等。然而,当方差齐性条件确实成立时,等方 t 检验具有更优的统计效力(power),因此至今仍在实验设计和医学研究中广泛使用。
两检验的关键权衡如下:当方差齐性满足时,等方 t 检验的统计效力更高,因为合并方差利用了全部样本信息来估计共同的 σ2,自由度也更大;当方差不等时,等方 t 检验的实际第I类错误率可能严重偏离名义水平,此时 Welch t 检验更可靠。现代统计方法文献普遍建议:若不确知方差是否相等,应采用 Welch t 检验作为默认选择\footnote{Zimmerman(2004)的模拟研究表明,即使方差齐性成立,Welch t 检验的效力损失也极小。}。
F 检验:F=s12/s22,在正态假设下 F∼Fn1−1,n2−1。它对非正态性较为敏感。
Levene 检验:以各组中位数为中心计算绝对离差,稳健性更强,是多数统计软件的默认选项。
Bartlett 检验:对正态性假设敏感,适用于正态数据。
需注意,方差齐性检验本身是假设检验,其统计效力在样本量较小时可能不足(即方差实际不等但未检出),而在样本量较大时又可能将微小且无实际意义的差异判定为显著。因此,一些统计学家主张放弃预检验,直接采用 Welch t 检验作为标准流程\footnote{参见 Ruxton(2006)在 Behavioral Ecology 上的讨论文章。}。
软件实现
主流统计软件均提供两样本等方 t 检验的实现。在 extbf{R} 中,调用 \verb|t.test(x, y, var.equal = TRUE)| 即执行等方差 t 检验;若设为 \verb|var.equal = FALSE| 则为 Welch t 检验。 extbf{Python} 的 \verb|scipy.stats.ttest\_ind(a, b, equal\_var=True)| 提供相同功能。 extbf{Stata} 使用 \verb|ttest var, by(group)| 并配合 \verb|unequal| 选项切换 Welch 版本。 extbf{SPSS} 的独立样本 t 检验同时输出等方差和 Welch 两套结果,使用者根据 Levene 检验的显著性选择读取哪一行即可。
常见误区
使用两样本等方 t 检验时应注意以下问题:第一,不可在发现差异方向后选择性报告单侧检验结果——检验方向应在数据分析之前根据研究假设确定;第二,方差齐性检验与主检验的 extbf{两步法}会使整体的第 I 类错误率发生偏移,且预检验本身的统计效力在样本量较小时有限;第三,当样本量极不均衡(如 n1=100 而 n2=5)时,合并方差估计主要由大样本群驱动,小样本群的方差信息被严重稀释,此时即使方差齐性名义上成立,检验的稳健性也值得怀疑,应考虑使用 Welch 方法或非参数方法(如Mann-Whitney U检验)。
小 结
两样本等方 t 检验是两样本均值比较的经典方法,其理论基础坚固、计算简洁,在方差齐性条件满足时具有优良的统计效力。然而,它的适用依赖于正态性与方差齐性两项关键假设,研究者需根据数据特征审慎判断是否满足这些前提。当假设存疑时,Welch t 检验作为一种稳健的替代方案,已成为当代统计实践中的推荐默认方法。