ARTICLE
样本选择偏误
样本选择偏误 (Sample Selection Bias) 样本选择偏误 (Sample Selection Bias) 是指因样本非随机地取自总体,导致基于样本的统计推断不能无偏地反映总体真实特征的系统性偏差。这一概念在计量经济学、统计学和因果推断中占据核心地位。样本选择偏误的本质是:观测到的数据并非总体中的随机子集,而是由某种选择机制决定——被观测者与
样本选择偏误 (Sample Selection Bias)
样本选择偏误 (Sample Selection Bias) 是指因样本非随机地取自总体,导致基于样本的统计推断不能无偏地反映总体真实特征的系统性偏差。这一概念在计量经济学、统计学和因果推断中占据核心地位。样本选择偏误的本质是:观测到的数据并非总体中的随机子集,而是由某种选择机制决定——被观测者与未被观测者在关键特征上存在系统性差异,此时直接将观测样本的统计量推广至总体会产生偏误。
偏误的产生机制
样本选择偏误最常见的来源是截断 (Truncation) 和偶然断尾 (Incidental Truncation)。截断指样本仅在因变量落入某一范围时才被观测到,这一机制会系统性地从样本中删除特定取值区间的观测值。例如研究工资方程时,仅能观察有工作收入的人群——无工作者(工资为零或缺失)被系统性地排除在外,而他们恰恰可能是劳动市场上能力较低或面临更高就业障碍的群体。若直接用已有工资数据估计教育回报率,会高估教育对工资的整体影响,因为样本包含了正向选择——有工作者通常具备更强的劳动市场特征。偶然断尾更为隐蔽:研究者可以观察到解释变量(如受教育年限),但因变量(如工资)仅在特定条件下才可观测,此时直接回归同样会产生偏误。
自选择 (Self-Selection) 是另一重要来源。个体基于自身收益最大化的原则决定是否参与某项活动。例如评估职业培训项目时,主动参加培训者可能本身就比不参加者更有上进心或更具备就业能力。将培训参与者的平均收入与非参与者比较,会混淆培训本身的因果效应与参与者固有的能力差异,高估培训效果。自选择问题在非实验研究中无处不在,是因果推断面临的主要挑战之一。
Heckman 两阶段修正法
处理样本选择偏误的经典方法是Heckman修正(Heckman Correction),由 James Heckman 于 1979 年提出,他因此获得 2000 年诺贝尔经济学奖。Heckman 将样本选择问题纳入一个两方程框架:选择方程 (Selection Equation) 刻画个体是否被观测到的决策过程;结果方程 (Outcome Equation) 刻画被观测个体的结果变量。
设选择方程为 ,其中 为潜变量,当 时个体被观测到(记 ),否则不可观测()。结果方程为 ,但仅在 时可观测 。关键假设为误差项 服从联合正态分布。如果 与 相关(即影响选择决策的未观测因素也与结果相关),则观测样本中 ,OLS 估计不一致。
Heckman 修正分为两步:第一步,用Probit模型估计选择方程,获得每个观测的逆米尔斯比率 (Inverse Mills Ratio, IMR) ,其中 和 分别为标准正态的密度函数和分布函数。第二步,将 IMR 作为额外回归变量加入结果方程:。IMR 捕捉了选择偏误的强度:若 ,则不存在显著的选择偏误;若 ,则 OLS 有偏,IMR 的加入纠正了这一偏误。
其他处理方法
除 Heckman 修正外,还有多种应对样本选择偏误的策略。倾向得分匹配 (Propensity Score Matching) 通过选择方程估计个体接受处理的概率,再匹配具有相似倾向得分的处理组与对照组个体,模拟随机化实验。工具变量法 (IV) 在存在选择偏误时,通过寻找影响选择决策但不直接影响结果的外生变量来恢复因果效应。断点回归设计 (RDD) 利用临界值附近个体的近似随机性处理自选择问题。面板数据固定效应模型则通过个体层面的去均值处理消除不随时间改变的选择性不可观测异质性。
样本选择偏误与遗漏变量偏误的联系
样本选择偏误本质上是一种特殊的遗漏变量偏误——被遗漏的变量是影响选择决策的不可观测因素(如动机、能力),这些因素同时与结果变量相关。Heckman 修正的 IMR 正是作为该遗漏变量的代理变量进入回归方程。理解这一联系有助于统摄性地看待各类内生性问题,并选择适当的修正策略。
实际应用与案例
样本选择偏误广泛存在于经济学实证研究中。在劳动经济学中,已婚女性的工资方程存在典型的自选择偏误——参加工作与否是内生决定而非随机给定的。在教育经济学中,上大学的选择取决于能力、家庭背景等不可观测因素,直接比较大学毕业生与高中生的收入会高估大学教育的回报。在健康经济学中,使用医疗服务的人群比不使用群体更可能有健康问题——使用与否本身与健康结果互为因果,直接比较两类人群的健康状况会产生严重偏误。在金融学中,主动披露信息的公司可能本身质量更优,基于披露信息的分析会产生选择性披露偏误。在发展经济学中,参与小额信贷项目的农户往往是更有企业家精神和风险承担能力的群体,评估项目效果时需要谨慎处理这种自选择偏误。
Heckman 修正在这些领域为研究者提供了从非实验数据中识别因果关系的方法论工具。但该方法的有效性依赖于选择方程与结果方程的函数形式设定正确,且需要排除性约束变量——即影响选择但不影响结果的变量——作为识别来源。在应用时,应辅以敏感性分析和替代性识别策略来检验结论的稳健性。