ARTICLE

倾向得分匹配

倾向得分匹配(Propensity Score Matching,简称 PSM)是一种用于观察性研究中处理选择偏差(Selection Bias)的统计方法。其核心思想是将处理组与对照组中"倾向得分"相近的个体进行配对,从而在非随机化情境下近似模拟随机对照试验(RCT),以估计某种处理或干预的平均处理效应(Average Treatment Effect o

浏览 4 更新 2025-10-26

倾向得分匹配(Propensity Score Matching,简称 PSM)是一种用于观察性研究中处理选择偏差(Selection Bias)的统计方法。其核心思想是将处理组与对照组中"倾向得分"相近的个体进行配对,从而在非随机化情境下近似模拟随机对照试验(RCT),以估计某种处理或干预的平均处理效应(Average Treatment Effect on the Treated, ATT)。该方法由 Paul Rosenbaum 和 Donald Rubin 于 1983 年在《Biometrika》上发表的经典论文中正式提出,其理论贡献在于将高维协变量匹配问题降维为一维的倾向得分,从而大幅降低了匹配的难度和计算成本。

方法背景与动机

在经济学、流行病学、政治学等学科的实证研究中,研究者常常希望评估某项政策、治疗或干预的因果效应。然而,在非随机化的观察性数据中,个体是否接受处理往往取决于其自身特征——例如,参加职业培训的劳动者可能本身就比未参加者更有就业意愿——这就导致处理组与对照组在协变量分布上存在系统性差异,即所谓的选择偏差。传统的回归方法虽可在一定程度上控制可观测协变量,但当协变量维度较高时,回归的线性假设过于苛刻,且协变量分布的重叠区域可能极窄。倾向得分匹配正是在这一困境下应运而生的解决方案。

倾向得分的定义与估计

倾向得分定义为给定可观测协变量向量 X 的条件下,个体接受处理(T=1)的条件概率:p(X)=Pr(T=1X) p(X) = \Pr(T=1 | X) 。Rosenbaum 和 Rubin 证明的重要性质是:如果潜在结果与处理分配在给定 X 的条件下是条件独立的(即无混淆性假设),那么它们在给定 p(X) 的条件下也是条件独立的。换言之,倾向得分是一种"充分降维"工具:只要控制了倾向得分,所有可观测协变量的分布差异就能被消除。

在实践中,倾向得分通常通过 Logit 模型或 Probit 模型来估计。研究者将处理变量作为因变量,将可能影响处理分配的相关协变量作为自变量,进行参数回归估计。模型设定是否恰当直接影响倾向得分的估计质量,因此常需要反复调整变量组合、引入交互项或非线性项,并通过统计检验来筛选模型。近年来,机器学习方法(如随机森林、梯度提升树、神经网络)也被用于更灵活地估计倾向得分,以减少模型误设带来的偏差。

匹配方法

估计出倾向得分后,下一步是将处理组个体与倾向得分相近的对照组个体进行匹配。常用的匹配策略包括以下几种。

最近邻匹配(Nearest Neighbor Matching)是最直接的方法:为每个处理组个体在对照组中寻找倾向得分差异最小的一个或多个个体,可设置为有放回匹配或无放回匹配。有放回匹配增加了对照组个体的使用效率,但可能造成对照组个体被多次匹配而导致信息重复。卡钳匹配(Caliper Matching)则设定一个预先指定的容忍阈值——只有当倾向得分差异在该阈值范围内时,才允许匹配,从而避免匹配质量过差的配对。卡钳值的选取需要权衡偏差与方差:卡钳过小会导致大量处理组个体无法找到匹配对象,样本量减少;卡钳过大则允许质量较差的配对进入,引入偏误。

分层匹配(Stratification Matching)将倾向得分的共同取值范围划分为若干区间(层),在每个层内计算处理组与对照组的平均结果差异,再以各层样本占比为权重加总得到整体处理效应。核匹配(Kernel Matching)和局部线性匹配(Local Linear Matching)则是非参数方法,利用核函数对每个处理组个体周围的所有对照组个体进行加权平均,权重由倾向得分的邻近程度决定。这些方法的共同目标是在偏差与方差之间寻求最优平衡。

共同支撑域与平衡性检验

倾向得分匹配的可靠性高度依赖于共同支撑域(Common Support)假设——即处理组和对照组的倾向得分分布必须存在足够大的重叠区域。若两组个体的倾向得分完全分离——也就是说,某些倾向得分取值仅出现在处理组而不出现在对照组——则在这些区域内无法进行有效匹配,估计结果将高度依赖外推假定。研究者通常通过绘制倾向得分分布的直方图或核密度图来直观检查共同支撑域,并剔除落在支撑域之外的个体。

匹配完成后,必须进行平衡性检验(Balance Test),以验证匹配是否有效消除了处理组与对照组在协变量分布上的系统性差异。常用的平衡性指标包括标准化均值差异(Standardized Mean Difference, SMD)、方差比(Variance Ratio)以及经匹配后的 t 检验或卡方检验。经验规则是:标准化均值差异的绝对值小于 0.1 或 0.25 被认为匹配效果良好。如果匹配后部分协变量的平衡性仍未达到满意水平,研究者需要重新调整倾向得分模型的设定、改用不同的匹配方法或引入更高阶的匹配变量。

敏感性分析

匹配方法仅能控制可观测协变量带来的选择偏差,无法直接处理由不可观测因素导致的混淆——例如,个体的内在动机或能力等难以量化的特征。为评估不可观测混淆对估计结果的可能影响,研究者通常需要进行敏感性分析(Sensitivity Analysis)。Rosenbaum 边界检验(Rosenbaum Bounds)是最常用的工具之一,它通过引入一个参数 Γ 来衡量不可观测因素需达到多大强度才能推翻当前的因果结论。若估计结果对不可观测因素的微小扰动极为敏感,则研究者应持谨慎态度。

应用领域与局限

倾向得分匹配已被广泛应用于劳动经济学:如职业培训的工资效应(最经典的案例是 LaLonde 1986 年的评价研究)、最低工资政策对就业的影响、医保覆盖对健康结果的影响等。除此之外,它也频繁出现在教育经济学(评估奖学金或小班教学的效果)、流行病学(药物疗效或手术效果的观察研究)以及政治学(选举干预或政策扩散研究)等学科中。

但该方法并非万能。首先,它依赖于无混淆性假设——即所有影响处理分配的混淆变量都被观测到且包含在倾向得分模型中——这一假定在实证中往往难以验证。其次,倾向得分匹配要求观测样本量较大且两组个体特征具有充分重叠,在小样本或共同支撑域不足的情形下,匹配效果会显著退化。再次,匹配方法仅适用于估计处理组平均处理效应(ATT)或总体平均处理效应(ATE),对于处理效应的异质性分布则需要借助更复杂的扩展方法(如因果森林)。最后,倾向得分匹配本身不能替代工具变量或断点回归等策略来处理内生性问题,多种方法的交叉验证有助于提升因果推断的稳健性。

总结

倾向得分匹配凭借其直观的逻辑、相对较低的计算门槛和可解释性强的结果,已成为观察性研究中因果推断的重要工具。它将高维协变量匹配转化为单一维度的条件概率匹配,在实证研究中具有广泛的应用价值。正确使用倾向得分匹配需要审慎的模型设定、严格的平衡性检验、充分的共同支撑域验证以及必要的敏感性分析。研究者应清醒认识到,倾向得分匹配消除的仅是"基于可观测变量的选择偏差",而非全部混杂效应,唯有将其与扎实的研究设计和对数据生成过程的深刻理解相结合,才能真正接近因果关系的可靠结论。