成对样本t检验 (Paired Sample t-Test)
成对样本t检验,又称配对t检验 (Paired t-Test) 或相依样本t检验 (Dependent Samples t-Test),是一种用于比较两个相关样本均值差异的假设检验方法。其核心特征在于两组观测值之间存在自然的配对关系——如同一受试者在处理前后的两次测量、双胞胎配对或左右配对设计——使得每一对数据点不可视为相互独立,而须以差值作为分析单元。该检验实质上是将配对差值转化为单样本t检验:若两组成对样本的总体均值无差异,则差值的总体均值应为零。
检验假设与统计量
设配对观测值为 (Xi1,Xi2),i=1,2,…,n,定义配对差值:
Di=Xi1−Xi2,i=1,…,n
假定 Di∼iidN(μD,σD2)。检验假设为:
H0:μD=0vsH1:μD=0(双侧),μD>0(右侧),μD<0(左侧)
检验统计量基于差值的样本均值 Dˉ=n1∑i=1nDi 和样本标准差 sD=n−11∑i=1n(Di−Dˉ)2:
t=sD/nDˉ∼t(n−1)
在 H0 成立时,该统计量服从自由度为 n−1 的t分布。给定显著性水平 α,双侧检验的拒绝域为 ∣t∣>tα/2(n−1)。
均值差异的置信区间:μD 的 100(1−α)% 置信区间为:
Dˉ±tα/2(n−1)⋅nsD
若该区间不包含零,则在 α 水平上拒绝 H0。置信区间比单纯的拒绝/不拒绝二元结论提供了更丰富的效应量信息。
与单样本t检验的本质联系
成对样本t检验的数学结构揭示了其与单样本t检验的等价性:一旦计算出配对差值 Di,问题便完全退化为检验 D1,…,Dn 是否来自均值为零的正态分布总体。这一转化之所以有效,是因为配对设计消除了个体间的异质性——每个受试者充当自身的对照,使得差值 Di 仅反映处理效应与随机误差,而不受个体基线特征的系统性干扰。正因如此,成对设计在同等样本量下通常比独立样本t检验具有更高的统计功效(Statistical Power)。
然而,这一效率增益依赖于配对的有效性。可从方差比较的角度精确理解:成对检验的方差为 Var(Dˉ)=n1(σ12+σ22−2ρσ1σ2),而独立样本检验中 Xˉ1−Xˉ2 的方差为 nσ12+nσ22(假设两组样本量均为 n)。当配对间的相关系数 ρ>0 时,成对设计的方差严格小于独立设计——ρ 越接近 1,效率增益越大。这正是"受试者自身对照"设计的统计学优势所在。但若 ρ≈0,方差缩减微乎其微,而自由度从 2n−2 降至 n−1 反使临界值增大,此时独立设计更优。
前提假设与诊断
成对样本t检验依赖以下假设:
- 独立性:各配对之间相互独立。重复测量设计中,若同一受试者贡献多对数据,需改用重复测量ANOVA或混合效应模型。
- 正态性:差值 Di 来自正态分布总体。当样本量 n 较小时,正态性偏离会导致检验水准失真;当 n≥30 时,依中心极限定理,Dˉ 的抽样分布近似正态,检验对非正态性具有一定稳健性。
- 无异常值:极端差值可能严重扭曲 Dˉ 和 sD,尤其在样本量较小时。建议辅以箱线图或Grubbs检验进行异常值筛查。
正态性诊断可使用Shapiro-Wilk检验或Q-Q图对差值序列进行检验。若正态性假设严重违背(尤其在 n<30 时),应考虑改用Wilcoxon符号秩检验。
非参数替代:Wilcoxon符号秩检验
当差值分布显著偏离正态或存在离群值时,Wilcoxon符号秩检验 (Wilcoxon Signed-Rank Test) 是成对样本t检验的标准非参数检验替代。该检验基于差值绝对值的秩次及差值的符号构造统计量,检验 H0:差值总体中位数=0。相较于成对t检验,符号秩检验不要求正态性假设且对异常值不敏感,但代价是统计功效略低——当正态性实际成立时,其渐近相对效率约为 3/π≈0.955。
效应量与统计功效
仅有统计显著性不足以衡量处理效应的实际重要性,还需报告效应量。成对设计中,最常用的效应量指标是 Cohen's dz:
dz=sDDˉ
与独立样本的 Cohen's d 不同,dz 的分母是差值的标准差而非合并标准差,因此不受配对相关性的影响。Cohen 建议的判断基准为:∣dz∣=0.2 小效应,0.5 中等效应,0.8 大效应。
先验功效分析是研究设计阶段的关键步骤。给定预期效应量 dz、显著性水平 α 和目标功效 1−β(通常取 0.80),所需最小样本量为:
n≈(dzz1−α/2+z1−β)2
其中 z1−α/2 和 z1−β 分别为标准正态分布的临界值。例如在 α=0.05、1−β=0.80 下检测中等效应 dz=0.5,约需 n≈34 对观测。功效分析有助于避免样本量不足导致的假阴性或样本量过大导致的资源浪费。
应用场景与实例
成对样本t检验广泛应用于:
- 医学与药理学:比较同一组患者治疗前后血压、血糖或疼痛评分的变化。例如,20 名高血压患者服药前后的收缩压差值经检验 t=4.37,p<0.001,表明药物具有显著的降压效果。
- 心理学与教育学:评估培训或教学干预前后测验成绩的提升。配对设计天然控制了个体智力、动机等混淆变量。
- 经济学:比较同一组企业在政策实施前后的生产率或利润率变化,常用于事件研究中特定窗口的异常收益检验。
- A/B测试:当实验单元可形成天然配对(如同一用户在不同时段的两种界面体验),配对t检验能有效提升检验灵敏度。
数值示例:某研究评估一种新型教学方法对学生数学成绩的影响,随机选取 10 名学生,记录教学干预前后的测试成绩(满分 100)。干预前均值为 68.4,干预后均值为 74.7,差值均值 Dˉ=6.3,差值标准差 sD=4.15。检验统计量:
t=4.15/106.3≈4.80,df=9
查表得双侧临界值 t0.025(9)=2.262。因 ∣4.80∣>2.262,拒绝 H0,结论为教学方法显著提升了成绩。95\% 置信区间为 6.3±2.262×(4.15/10)=[3.33,9.27],效应量 dz=1.52,属于大效应。若误用独立样本t检验,检验统计量将降至约 t≈2.89(因忽略配对相关性导致方差估计膨胀),可能低估干预效果。
与独立样本t检验的对比
成对样本t检验与独立样本t检验的选择根本上取决于研究设计而非主观偏好。前者适用于配对或重复测量设计,分析单元为差值 Di,自由度为 n−1;后者适用于两组独立受试者的比较,需额外检验方差齐性(如Levene检验),自由度为 n1+n2−2。误用独立样本t检验处理配对数据会导致检验功效大幅下降并可能产生偏误的结论;反之亦然。在报告研究结果时,须明确说明采用配对设计的理由,并报告差值均值、标准差、置信区间及效应量(如 Cohen's dz=Dˉ/sD)。