ARTICLE
配对样本 (Paired Samples)
配对样本 (Paired Samples) 配对样本 (Paired Samples),又称成对样本或相关样本 (Dependent Samples),是统计学与计量经济学中一种特殊的数据结构。在配对样本中,两组观测值之间存在一一对应的自然匹配关系,使得每一对观测值由于共享某些共同特征或来自同一个体而彼此关联。这与独立样本 (Independent Samp
配对样本 (Paired Samples)
配对样本 (Paired Samples),又称成对样本或相关样本 (Dependent Samples),是统计学与计量经济学中一种特殊的数据结构。在配对样本中,两组观测值之间存在一一对应的自然匹配关系,使得每一对观测值由于共享某些共同特征或来自同一个体而彼此关联。这与独立样本 (Independent Samples) 形成根本性区别:独立样本中两组观测值互不影响,而配对样本中每一对数据的两个取值在逻辑上不可拆分。
配对样本的核心统计优势在于:通过分析每对数据的差异而非原始值本身,可以有效消除个体间不可观测的异质性 (Unobserved Heterogeneity),从而大幅提高统计推断的精度与检验功效 (Statistical Power)。这一思想在经济学实证研究中具有基础性地位。
配对样本的典型来源
配对样本的产生机制主要有以下三种。
前后比较设计 (Before-After Design):对同一组受试者在干预或处理前后分别进行测量,形成一对前后数据。例如,评估职业培训项目效果时,同一批工人在培训前后的工资水平构成配对样本。又如,研究某项税收政策改革的影响时,同一地区在政策实施前后的人均消费支出形成配对数据。
配对匹配设计 (Matched-Pairs Design):研究者根据某些关键协变量(如年龄、性别、教育水平、行业等)将两个不同个体进行一一匹配,使得每对中的两个个体在这些协变量上尽可能相似,然后随机分配两种处理条件。典型案例是劳动经济学中通过倾向得分匹配 (Propensity Score Matching) 构造的处理组-控制组配对样本,以及医学统计中按年龄和性别配对的病例-对照研究。
自然配对来源:某些数据天然具有配对结构——双胞胎研究(同卵双胞胎分别接受不同处理)、夫妻双方的经济决策数据、同一产品的两个竞争品牌的定价数据、同一只股票在不同交易所的报价等。这类数据的配对属性来自研究设计之外的自然联结,但统计分析方法与前述两种完全一致。
配对样本 t 检验
配对样本 t 检验 (Paired-Samples -Test) 是分析配对数据最常用的参数方法。其核心思想是将两组数据的比较转化为单一样本的均值检验:首先计算每对数据的差值,然后检验这些差值的总体均值是否显著异于零。
设共有 对观测值 。定义每对数据的差值:
进一步定义差值的样本均值 与样本标准差 :
若差值总体服从正态分布,则在原假设 下,检验统计量服从自由度为 的 分布:
配对 t 检验的统计功效通常显著高于独立两样本 t 检验,原因在于:独立样本检验中两组均值之差的标准误包含了组间个体变异,而配对检验仅需估计差值自身的变异。具体而言,设两组的总体方差均为 ,两组间的总体相关系数为 ,则配对情形下 的方差为:
而独立样本情形下 的方差为 。只要 ,配对设计的方差就严格小于独立设计的方差,这正是配对设计消除个体异质性的数学体现。
配对样本的非参数检验
当差值正态性假定不成立时(例如差值分布严重偏态或存在异常值),可采用威尔科克森符号秩检验 (Wilcoxon Signed-Rank Test) 作为配对 t 检验的非参数替代。该检验由 Frank Wilcoxon 于 1945 年提出,只要求差值分布关于中位数对称,而不依赖具体的分布形式。
检验步骤如下:首先计算每对数据的差值 ,剔除所有 的配对并相应调整有效样本量 ;然后将剩余差值的绝对值 从小到大排序并赋予秩次 ;构造检验统计量 为正差值所对应秩次之和:
在零假设成立(差值的中位数为零)且 足够大时, 的标准化形式近似服从标准正态分布。威尔科克森符号秩检验的渐近相对效率 (Asymptotic Relative Efficiency) 相对于 t 检验至少为 0.864,在厚尾分布下可以远高于 t 检验。
另一种非参数选择是符号检验 (Sign Test),它仅利用差值的符号信息而忽略其大小,因此统计功效较低,但在数据仅有方向信息而无精确度量时仍有独特运用价值。
计量经济学中的重要应用
配对样本的思想在计量经济学的多个核心方法中扮演关键角色。
双重差分法 (Difference-in-Differences, DiD):DiD 是评估政策效应的准实验方法,其估计量本质上就是对两组配对差异的比较——先计算每个个体在政策前后的变化(第一重差分,即配对比较),再比较处理组与控制组的这种变化(第二重差分)。两期面板数据的 DiD 估计量可写为:
括号内的两项正是配对样本的前后差异,因此 DiD 继承了配对设计消除不随时间变化的个体异质性的优势。
面板数据固定效应模型:在面板数据 (Panel Data) 分析中,一阶差分估计量 (First-Difference Estimator) 通过对每个个体在不同时期的观测值进行差分来消除个体固定效应,本质上就是将每个个体的两期数据视为一组配对样本。更一般地,组内估计量 (Within Estimator,又称固定效应估计量) 通过减去个体均值的方式消除了不随时间变化的个体异质性,其统计逻辑与配对设计一脉相承。
事件研究法 (Event Study):在金融经济学和公司金融中,事件研究法通过比较事件窗口内的实际收益与基于估计窗口预测的正常收益(异常收益, Abnormal Returns)来评估某一事件的冲击。对同一只股票或同一家公司在事件前后的收益进行比较,天然就是一个配对样本框架。
匹配估计量 (Matching Estimators):在项目评估文献中,基于倾向得分匹配 (Propensity Score Matching) 或马氏距离匹配 (Mahalanobis Distance Matching) 构造的处理组-控制组配对数据,其估计量本质上就是对每一对匹配样本的结果差异进行均值检验,与配对 t 检验共享相同的统计原理。
注意事项与常见误区
尽管配对设计具有显著的统计优势,但在实践中需要注意以下几点。
配对的有效性:只有当前后测量或匹配变量的相关性确实存在且为正时,配对设计才比独立样本设计更有效。若配对变量与结果变量之间实际相关度很低(),配对设计不会带来精度提升;若因配对而损失的自由度(配对 t 检验的自由度为 ,而独立样本检验为 )超过了相关性带来的方差缩减,配对反而可能导致检验功效下降。
顺序效应与学习效应:在前后测量设计中,第一次测量本身可能影响第二次测量的结果——例如,受试者在第二次测试中因熟悉测试流程而表现更好(练习效应),或因为疲劳而表现更差(疲劳效应)。这类顺序效应会混杂处理效应的估计,需要在研究设计层面通过随机化或交叉设计加以控制。
回归均值 (Regression to the Mean):在根据极端值进行配对匹配的研究中,需要注意回归均值现象——初次测量表现极端的个体在第二次测量时有向均值回归的自然趋势,这可能被误认为是处理效应。弗朗西斯·高尔顿 (Francis Galton) 最早在 19 世纪末系统描述了这一现象。
缺失数据与配对断裂:当配对中的某一方缺失数据时,整对数据通常需要从分析中剔除,这可能导致样本量缩水和选择性偏误。在面板数据的应用中,这一问题表现为非随机损耗 (Non-Random Attrition) 对参数估计一致性的潜在威胁。
综上,配对样本是经济学实证研究中不可替代的分析框架,其核心思想——通过控制个体异质性来识别真实效应——深刻塑造了当代应用微观计量经济学的方法论格局,从随机对照试验的分析到准实验设计的推断,配对逻辑无处不在。