ARTICLE
成对 t 检验
成对 t 检验 (Paired t-test) 成对 t 检验,又称配对样本 t 检验或相依样本 t 检验,是统计学中用于比较两个相关样本均值是否存在显著差异的经典假设检验方法。其核心思想在于:当两组观测值之间存在天然的配对关系——如同一个体在干预前后的两次测量、匹配设计中的配对受试者、或同一组受试者在两种条件下的反应——直接比较两组均值的差异会被个体间的异
成对 t 检验 (Paired t-test)
成对 t 检验,又称配对样本 t 检验或相依样本 t 检验,是统计学中用于比较两个相关样本均值是否存在显著差异的经典假设检验方法。其核心思想在于:当两组观测值之间存在天然的配对关系——如同一个体在干预前后的两次测量、匹配设计中的配对受试者、或同一组受试者在两种条件下的反应——直接比较两组均值的差异会被个体间的异质性所污染。成对 t 检验通过将分析对象从原始观测值转化为配对差值(paired differences),消除了个体间变异对推断的干扰,从而在统计功效上远超独立样本 t 检验。
这一方法由威廉·戈塞特(William Sealy Gosset,笔名"Student")在 1908 年提出 t 检验的奠基性论文中即已涉及,后经费希尔(Ronald A. Fisher)的体系化整理而成为应用统计学的标准工具。在经济学、心理学、医学和公共政策评估中,成对 t 检验是因果推断和政策评估领域使用频率最高的统计方法之一,尤其是在双重差分(difference-in-differences)和匹配估计(matching estimators)的初步分析中扮演着重要角色。
基本原理与适用场景
成对 t 检验的逻辑基础是差分消元:设有 对观测值 ,其中 和 共享个体 的某些不可观测特征(如能力、偏好、遗传禀赋)。如果用独立样本 t 检验直接比较两组均值,个体间的异质性会增大标准误的估计,降低检验功效。成对 t 检验转而关注差值 ,在配对设计中, 的变异仅来源于"处理效应"和随机误差,而不包含个体层面的系统性差异。
典型的适用场景包括:
- 前后对比设计(pre-post design):同一组被试在干预前后的测量。例如,劳动者在参加职业技能培训前后的工资水平,学生在修读经济学原理课程前后对通胀理解的测试得分。
- 配对匹配设计(matched-pairs design):研究者按关键协变量(年龄、性别、教育水平等)将两个个体组成配对,然后在每对内部随机分配处理。这在随机对照试验样本量有限时尤为常见。
- 自然配对(natural pairing):数据本身具有天然的成对结构,如双胞胎研究、夫妻双方的经济决策、左右眼的视力测量、同一只基金在两种市场环境下的收益率。
- 重复测量(repeated measures):同一受试者在多种实验条件下的观察,如消费者在不同价格水平下的购买意愿。
需要注意的是,成对 t 检验并非万能:如果配对是随意进行的(即配对变量与结果变量无关),强行配对反而会因为自由度减半而降低检验功效。配对必须基于与结果变量实质性相关的匹配变量,这一点在经济学研究设计中被反复强调(Angrist \& Pischke, 2009)。
数学框架与检验统计量
设总体配对差值的期望为 。成对 t 检验的零假设(null hypothesis)和备择假设(alternative hypothesis)为:
(单侧检验可选择 或 )
令 为第 对的差值,样本均值 ,样本标准差 。则检验统计量为:
在零假设成立且差值 服从正态分布(或样本量足够大)的条件下,该统计量服从自由度为 的t 分布:
直观解释:分子 是"信号"——观察到的平均处理效应;分母 是"噪声"——由于抽样误差导致的估计不确定性。t 值越大,意味着信号相对于噪声越强,拒绝零假设的证据越充分。
假设检验与决策规则
基于Neyman-Pearson 框架,成对 t 检验的决策步骤如下:
置信区间法: 的 置信区间为:
若该区间不包含 0,则在显著性水平 上拒绝 。
p 值法:计算在 为真时观察到当前或更极端 t 值的概率 (双侧),其中 。若 ,拒绝 。
临界值法:若 ,拒绝 。
三种方法在数学上等价,但经济学实证论文中更倾向于同时报告置信区间和p 值,因为前者提供了效应大小的可能范围,后者量化了反对零假设的证据强度。仅报告"在 5\% 水平上显著"的二元判断正日益受到批评(Wasserstein et al., 2019)。
与独立样本 t 检验的比较
成对 t 检验与独立样本 t 检验(independent samples t-test,又称Student t 检验)在适用条件、统计功效和估计精度上存在根本差异,混淆两者是应用统计学中最常见的错误之一。
二者的关键区别在于方差结构。在独立样本 t 检验中,,两组各自的变异全部进入标准误。在成对 t 检验中:
其中 是配对的协方差。当配对呈正相关时(如前测与后测通常高度正相关), 使得 远小于独立样本情况下的方差,从而实现"自己当自己的对照"——这是成对 t 检验功效高于独立样本 t 检验的根本原因。
从自由度看:成对 t 检验的自由度为 ,独立样本 t 检验的自由度为 。在相同总样本量下,独立样本 t 检验的自由度大约是成对检验的两倍。这意味着如果配对变量与结果无关(),成对检验因自由度损失而反而不如独立样本检验有效。
经济学与社会科学中的应用
成对 t 检验在经济学研究中具有广泛的应用场景:
政策评估:在项目评估(program evaluation)中,研究者常对同一组个体在政策实施前后进行观测,以差值 的均值检验政策效果。虽然现代方法更偏好双重差分以控制时间趋势,但简单的成对 t 检验仍然是初步分析的标准步骤。例如,Card \& Krueger(1994)在分析新泽西最低工资上调对就业的影响时,其核心分析逻辑本质上与成对差值比较一脉相承。
实验经济学:在实验室实验中,同一受试者在不同实验处理(treatment)下的行为差异常通过成对 t 检验进行分析,以控制个体层面的风险偏好、利他倾向等不可观测异质性。
金融经济学:在事件研究(event study)中,研究者检验事件窗口内的异常收益(abnormal returns)是否显著异于零——这本质上就是对每只股票(或每个事件)的异常收益进行单样本 t 检验,与成对 t 检验在数学结构上等价。
匹配估计:在使用倾向得分匹配(propensity score matching, PSM)后,处理组和对照组形成配对,研究者通过成对 t 检验(或等价的配对 Wilcoxon 检验)来验证协变量平衡。
前提假设与稳健性
成对 t 检验的有效性依赖于以下假设:
- 独立性:配对之间相互独立(一个配对的差值不携带关于另一个配对差值的信息)。在聚类抽样(如学生嵌套在班级中)的情境下,该假设可能被违反,需要改用聚类标准误或混合效应模型。
- 正态性:差值 来自正态分布。当样本量较大时(通常 ),由中心极限定理, 的抽样分布近似正态,t 检验具有渐近稳健性。在小样本且差值分布严重偏态或存在离群值时,应使用非参数替代方法,如Wilcoxon 符号秩检验(Wilcoxon signed-rank test)。
- 连续性:变量应为连续型(或近似连续)。对于离散型结果,成对 t 检验在小样本下可能有偏,可考虑McNemar 检验或条件逻辑回归。
实践中,研究者通常通过以下方式评估假设的合理性:绘制差值的Q-Q 图(quantile-quantile plot)检验正态性;使用Shapiro-Wilk 检验进行形式化判断;当正态性假设存疑时,同时报告成对 t 检验和 Wilcoxon 符号秩检验的结果,以证明结论对分布假设不敏感。
总之,成对 t 检验是统计学工具箱中最为基础也最为精巧的工具之一。其精巧之处不在于数学复杂性,而在于研究设计层面的智慧——通过巧妙的配对设计,将个体异质性这一核心威胁转化为可控因素,从而在有限的样本中提取出更为干净的因果信号。这一思想远远超出了 t 检验本身,贯穿于整个现代计量经济学的识别策略设计之中。