ARTICLE

两样本等方 t 检验

两样本等方 t 检验 (Two-Sample Equal-Variance t-Test) 两样本等方 t 检验，又称合并方差 t 检验（Pooled t-Test）或学生 t 检验的两样本版本，是用于比较两个独立正态总体均值差异的最经典参数检验方法。其核心假设是两个总体的方差相等（方差齐性），在此前提下将两组样本的方差信息合并为一个更稳定的总体方差估计，从

浏览 0 更新 2025-10-26

两样本等方 t 检验 (Two-Sample Equal-Variance t-Test)

两样本等方 t 检验，又称合并方差 t 检验（Pooled t-Test）或学生 t 检验的两样本版本，是用于比较两个独立正态总体均值差异的最经典参数检验方法。其核心假设是两个总体的方差相等（方差齐性），在此前提下将两组样本的方差信息合并为一个更稳定的总体方差估计，从而构造 t 统计量。

基本概念与历史背景

两样本等方 t 检验的数学基础由William Sealy Gosset（笔名 Student）于 1908 年奠基，后经Ronald Fisher进一步发展。在 Gosset 的原始框架中，小样本条件下必须假定两总体方差相等才能合并信息，否则 t 统计量的精确分布难以确定。这一"等方差"假定直到 1947 年B. L. Welch提出Welch t 检验后才获得推广，后者不再要求方差相等。然而，当方差齐性条件确实成立时，等方 t 检验具有更优的统计效力（power），因此至今仍在实验设计和医学研究中广泛使用。

适用条件

两样本等方 t 检验的严格有效性依赖以下条件：

独立性：两组样本内部及组间相互独立。通常通过随机抽样或随机分配实验单元来实现。
正态性：两总体均服从正态分布。若总体偏离正态，在样本量足够大时（通常每群 $n \ge 30$ ）检验仍近似稳健，但严重偏态或存在极端异常值时可能失效。
方差齐性（Homoscedasticity）： $\sigma_1^2 = \sigma_2^2$ 。这是该检验区别于 Welch t 检验的最核心条件。方差差异过大时，合并方差不具有代表性，检验的实际第I类错误率会偏离名义水平。

在实践中，方差齐性常用Levene检验、Bartlett检验或F检验\footnote{即 $F = s_1^2 / s_2^2$ ，检验两总体方差之比是否等于 1。}进行预检验。但需注意，预检验本身存在统计推断的连锁效应——方差齐性检验的结果会影响主检验的后续选择，从而影响整体的第I类错误率。

检验统计量

设两组独立样本的容量、均值和样本方差分别为：

组1： $n_1$ ， $\bar{X}_1$ ， $s_1^2 = \frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_{1i}-\bar{X}_1)^2$
组2： $n_2$ ， $\bar{X}_2$ ， $s_2^2 = \frac{1}{n_2-1}\sum_{i=1}^{n_2}(X_{2i}-\bar{X}_2)^2$

在方差齐性假设 $\sigma_1^2 = \sigma_2^2 = \sigma^2$ 下，两样本方差 $s_1^2$ 和 $s_2^2$ 都是 $\sigma^2$ 的无偏估计。将它们按各自的自由度加权平均，得到合并方差（Pooled Variance）：

s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}

合并方差的自由度是 $n_1 + n_2 - 2$ ，反映了估计 $\sigma^2$ 时损失了两个均值参数。两样本均值之差 $\bar{X}_1 - \bar{X}_2$ 的方差估计为 $s_p^2(1/n_1 + 1/n_2)$ ，其标准误即 $s_p \sqrt{1/n_1 + 1/n_2}$ 。

待检验的零假设为 $H_0: \mu_1 - \mu_2 = d_0$ （通常 $d_0 = 0$ ），检验统计量为：

t = \frac{(\bar{X}_1 - \bar{X}_2) - d_0}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}

在零假设下，该统计量服从t分布，自由度为 $\nu = n_1 + n_2 - 2$ 。

检验步骤与决策规则

陈述假设： $H_0: \mu_1 - \mu_2 = d_0$ ；备择假设可为双侧（ $\mu_1 \neq \mu_2$ ）、左尾（ $\mu_1 < \mu_2$ ）或右尾（ $\mu_1 > \mu_2$ ）。
设定显著性水平 $\alpha$ （通常 0.05 或 0.01）。
计算合并方差 $s_p^2$ 与 t 统计量。
做出决策： \begin{itemize}
临界值法：双侧检验比较 $|t|$ 与 $t_{\alpha/2, \nu}$ ；单侧检验比较 $t$ 与 $t_{\alpha, \nu}$ 。
P值法： $p = 2P(T_\nu > |t|)$ （双侧），若 $p \le \alpha$ 则拒绝 $H_0$ 。 \end{itemize}

效应量与置信区间

两总体均值差异的 $100(1-\alpha)\%$ 置信区间为：

(\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, \nu} \cdot s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}

该区间同时展示了差异的方向、大小与估计精度，比单一的 p 值提供更丰富的信息。对于效应量的标准化度量，常用Cohen's d：

d = \frac{\bar{X}_1 - \bar{X}_2}{s_p}

Cohen's d 以合并标准差为单位衡量两组均值差异，小、中、大效应分别对应约 0.2、0.5 和 0.8。

与 Welch t 检验的对比

Welch t 检验不假定方差相等，使用单独的样本方差 $s_1^2$ 和 $s_2^2$ 构造标准误，并通过 Welch-Satterthwaite 公式近似自由度：

\nu_{\text{Welch}} \approx \frac{(s_1^2/n_1 + s_2^2/n_2)^2}{(s_1^2/n_1)^2/(n_1-1) + (s_2^2/n_2)^2/(n_2-1)}

两检验的关键权衡如下：当方差齐性满足时，等方 t 检验的统计效力更高，因为合并方差利用了全部样本信息来估计共同的 $\sigma^2$ ，自由度也更大；当方差不等时，等方 t 检验的实际第I类错误率可能严重偏离名义水平，此时 Welch t 检验更可靠。现代统计方法文献普遍建议：若不确知方差是否相等，应采用 Welch t 检验作为默认选择\footnote{Zimmerman（2004）的模拟研究表明，即使方差齐性成立，Welch t 检验的效力损失也极小。}。

数值示例

假设某医学实验比较两种降压药物的疗效。将 20 名患者随机均分为两组，组 A（药物 A）的收缩压下降量（mmHg）为：

15, 18, 12, 20, 16, 14, 19, 17, 13, 16

组 B（药物 B）为：

10, 8, 14, 11, 9, 12, 7, 13, 10, 6

计算得 $\bar{X}_A = 16$ ， $s_A^2 = 7.11$ ； $\bar{X}_B = 10$ ， $s_B^2 = 6.67$ 。合并方差为：

s_p^2 = \frac{9 \times 7.11 + 9 \times 6.67}{18} = \frac{124.02}{18} \approx 6.89

检验 $H_0: \mu_A = \mu_B$ 的 t 统计量为：

t = \frac{16 - 10}{\sqrt{6.89} \cdot \sqrt{2/10}} = \frac{6}{2.625 \times 0.447} \approx \frac{6}{1.174} \approx 5.11

自由度为 $10 + 10 - 2 = 18$ ， $t_{0.025,18} \approx 2.101$ 。 $|t| = 5.11 > 2.101$ ，故在 $\alpha = 0.05$ 下拒绝 $H_0$ 。p 值 $\approx 0.00007$ ，远小于 0.05。Cohen's d $= 6 / \sqrt{6.89} \approx 2.29$ ，属于很大的效应量。95\% 置信区间为 $6 \pm 2.101 \times 1.174 \approx (3.53, 8.47)$ 。

方差齐性检验的注意事项

使用两样本等方 t 检验前，研究者常先进行方差齐性检验。常用方法包括：

F 检验： $F = s_1^2/s_2^2$ ，在正态假设下 $F \sim F_{n_1-1, n_2-1}$ 。它对非正态性较为敏感。
Levene 检验：以各组中位数为中心计算绝对离差，稳健性更强，是多数统计软件的默认选项。
Bartlett 检验：对正态性假设敏感，适用于正态数据。

需注意，方差齐性检验本身是假设检验，其统计效力在样本量较小时可能不足（即方差实际不等但未检出），而在样本量较大时又可能将微小且无实际意义的差异判定为显著。因此，一些统计学家主张放弃预检验，直接采用 Welch t 检验作为标准流程\footnote{参见 Ruxton（2006）在 Behavioral Ecology 上的讨论文章。}。

软件实现

主流统计软件均提供两样本等方 t 检验的实现。在 extbf{R} 中，调用 \verb|t.test(x, y, var.equal = TRUE)| 即执行等方差 t 检验；若设为 \verb|var.equal = FALSE| 则为 Welch t 检验。 extbf{Python} 的 \verb|scipy.stats.ttest\_ind(a, b, equal\_var=True)| 提供相同功能。 extbf{Stata} 使用 \verb|ttest var, by(group)| 并配合 \verb|unequal| 选项切换 Welch 版本。 extbf{SPSS} 的独立样本 t 检验同时输出等方差和 Welch 两套结果，使用者根据 Levene 检验的显著性选择读取哪一行即可。

常见误区

使用两样本等方 t 检验时应注意以下问题：第一，不可在发现差异方向后选择性报告单侧检验结果——检验方向应在数据分析之前根据研究假设确定；第二，方差齐性检验与主检验的 extbf{两步法}会使整体的第 I 类错误率发生偏移，且预检验本身的统计效力在样本量较小时有限；第三，当样本量极不均衡（如 $n_1=100$ 而 $n_2=5$ ）时，合并方差估计主要由大样本群驱动，小样本群的方差信息被严重稀释，此时即使方差齐性名义上成立，检验的稳健性也值得怀疑，应考虑使用 Welch 方法或非参数方法（如Mann-Whitney U检验）。

小结

两样本等方 t 检验是两样本均值比较的经典方法，其理论基础坚固、计算简洁，在方差齐性条件满足时具有优良的统计效力。然而，它的适用依赖于正态性与方差齐性两项关键假设，研究者需根据数据特征审慎判断是否满足这些前提。当假设存疑时，Welch t 检验作为一种稳健的替代方案，已成为当代统计实践中的推荐默认方法。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

两样本等方 t 检验