ARTICLE

选择偏差

选择偏差 (Selection Bias) 选择偏差(Selection Bias)是指由于样本个体的选择机制并非完全随机,导致所观测样本的统计特征系统地偏离了总体真实特征的一类系统性误差。在计量经济学、统计学和流行病学中,选择偏差是最常见且后果严重的内生性来源之一:它破坏了样本的随机抽样假设,使得基于样本的估计量丧失无偏性和一致性,进而导致错误的统计推断和

浏览 1 更新 2025-10-26

选择偏差 (Selection Bias)

选择偏差(Selection Bias)是指由于样本个体的选择机制并非完全随机,导致所观测样本的统计特征系统地偏离了总体真实特征的一类系统性误差。在计量经济学统计学和流行病学中,选择偏差是最常见且后果严重的内生性来源之一:它破坏了样本的随机抽样假设,使得基于样本的估计量丧失无偏性一致性,进而导致错误的统计推断和决策。

选择偏差的核心问题在于"选择机制"——即个体进入样本的概率并非均等,而是与某些可观测或不可观测的特征相关。当这些特征同时与研究的因变量相关时,标准的回归方法(如普通最小二乘法)将产生有偏估计。形式上,假设我们关心的总体回归模型为:

Yi=Xiβ+εi,i=1,,NY_i = \mathbf{X}_i \boldsymbol{\beta} + \varepsilon_i, \quad i = 1, \ldots, N

但研究者只能观测到一个子样本 S{1,,N}S \subseteq \{1, \ldots, N\},且个体 ii 被选入样本的指示变量 Di{0,1}D_i \in \{0, 1\} 满足:

Di=1{Ziγ+νi>0}D_i = \mathbf{1}\{ \mathbf{Z}_i \boldsymbol{\gamma} + \nu_i > 0 \}

其中 Zi\mathbf{Z}_i 是影响选择的可观测变量,νi\nu_i 是不可观测的选择扰动。当 Cov(εi,νi)0\text{Cov}(\varepsilon_i, \nu_i) \neq 0 时,即回归扰动与选择扰动之间存在相关性,则样本条件期望 E(YiXi,Di=1)E(Y_i \mid \mathbf{X}_i, D_i = 1) 不等于总体条件期望 Xiβ\mathbf{X}_i \boldsymbol{\beta},OLS 估计量因此有偏。

主要类型

选择偏差的表现形式多样,根据选择机制的来源可分为以下几种典型类型:

样本选择偏差 (Sample Selection Bias)

样本选择偏差指研究者在设计抽样方案时,系统性地排除了总体中的某些群体,或某些群体因非随机原因无法进入样本。例如,在劳动力市场研究中,工资方程只能观测到有工作的人——失业者和退出劳动力市场者的工资缺失。这种非随机缺失意味着工资样本在截面上是截断的,直接对就业者样本回归得到的教育回报率等参数将系统地高估或低估总体真实效应。

自选择偏差 (Self-Selection Bias)

自选择偏差指个体基于自身特征主动选择是否参与某项处理或进入某类群体,而这一选择行为与结果变量相关。经典的例子是教育经济学中的"大学溢价"研究:选择上大学的人可能在能力、动机、家庭背景等方面本身就优于未上大学者,即使不上大学他们的收入也可能更高。直接比较大学毕业生与高中毕业生的工资差异,会将能力偏误混杂其中,无法识别教育的因果效应

幸存者偏差 (Survivorship Bias)

幸存者偏差是选择偏差的一种特殊形式,指只关注"存活"下来的个体而忽视那些在过程中被淘汰的个体。最著名的案例来自统计学家Abraham Wald在第二次世界大战期间对返航飞机的弹孔分析——如果仅根据返航飞机的弹孔分布来加固飞机,就会忽视那些被击中致命部位而未能返航的飞机(真正的关键部位)。在金融领域,仅以当前存续的基金为样本研究历史业绩时,会因忽略了已清盘基金而产生正向偏误。

健康工人效应 (Healthy Worker Effect)

在流行病学和劳动经济学中,就业人群的平均健康状况通常优于总人口,因为健康状况差的人更可能退出劳动力市场。这种选择导致职业暴露与健康结果之间的关联被低估,是一种典型的样本选择偏差。

赫克曼选择模型与修正方法

处理选择偏差的标杆性方法是由James Heckman于 1979 年提出的赫克曼两阶段法(Heckman Two-Step Procedure),该方法为样本选择问题的计量处理奠定了基础并获得 2000 年诺贝尔经济学奖。

设定选择方程和结果方程分别为:

选择方程(参与方程):Di=Ziγ+νi,Di=1{Di>0}结果方程(工资方程):Yi=Xiβ+εi,Yi 仅在 Di=1 时可观测\begin{aligned} \text{选择方程(参与方程):} &\quad D_i^* = \mathbf{Z}_i \boldsymbol{\gamma} + \nu_i, \quad D_i = \mathbf{1}\{D_i^* > 0\} \\ \text{结果方程(工资方程):} &\quad Y_i = \mathbf{X}_i \boldsymbol{\beta} + \varepsilon_i, \quad Y_i \text{ 仅在 } D_i = 1 \text{ 时可观测} \end{aligned}

假设 (εi,νi)N(0,Σ)(\varepsilon_i, \nu_i) \sim \mathcal{N}(0, \Sigma),其中 Σ=(σε2ρσερσε1)\Sigma = \begin{pmatrix} \sigma_\varepsilon^2 & \rho \sigma_\varepsilon \\ \rho \sigma_\varepsilon & 1 \end{pmatrix}。当 ρ0\rho \neq 0 时存在选择偏差。

由二元正态的条件期望性质可得:

E(YiXi,Di=1)=Xiβ+ρσελ(Ziγ)选择偏差修正项E(Y_i \mid \mathbf{X}_i, D_i = 1) = \mathbf{X}_i \boldsymbol{\beta} + \underbrace{\rho \sigma_\varepsilon \lambda(\mathbf{Z}_i \boldsymbol{\gamma})}_{\text{选择偏差修正项}}

其中 λ()=ϕ()Φ()\lambda(\cdot) = \frac{\phi(\cdot)}{\Phi(\cdot)} 称为逆米尔斯比率(Inverse Mills Ratio),ϕ\phiΦ\Phi 分别为标准正态的密度函数和分布函数。

赫克曼两阶段法的操作步骤如下:

  1. 第一阶段:利用全部样本(包括未参与个体),对选择方程进行Probit模型估计,获得 γ^\hat{\boldsymbol{\gamma}},并计算每个观测的逆米尔斯比率 λ^i=λ(Ziγ^)\hat{\lambda}_i = \lambda(\mathbf{Z}_i \hat{\boldsymbol{\gamma}})
  2. 第二阶段:在结果方程中引入 λ^i\hat{\lambda}_i 作为额外回归元,对 Di=1D_i = 1 的子样本进行 OLS 回归: \[ Y_i = \mathbf{X}_i \boldsymbol{\beta} + \beta_\lambda \hat{\lambda}_i + u_i \] 其中 βλ=ρσε\beta_\lambda = \rho \sigma_\varepsilon。若 βλ\beta_\lambdat检验显著,则证实存在选择偏差;同时,加入 λ^i\hat{\lambda}_iβ\boldsymbol{\beta} 的估计量将达到一致。

其他修正与处理方法

除赫克曼方法外,处理选择偏差的策略还包括:

  • 工具变量法寻找与选择机制相关但与结果扰动无关的工具变量,通过两阶段最小二乘法 (2SLS) 实现一致性估计。
  • 双重差分法 (DID):当面板数据可用且选择基于不随时间变化的不可观测因素时,DID 可通过差分消除个体固定效应。
  • 断点回归设计 (RDD):当选择由某个连续变量的阈值决定时,RDD 利用阈值附近的局部随机性识别因果效应。
  • 倾向得分匹配 (PSM):基于可观测特征估计个体进入处理组的概率(倾向得分),通过匹配或加权构建可比的反事实组。
  • 随机对照试验 (RCT):通过随机分配处理,从源头上消除自选择,是因果推断的黄金标准。

应用场景

选择偏差在实证研究中极为普遍。劳动经济学中,工资方程的估计必须应对就业选择;政策评估中,项目参与者的自选择使得处理组与对照组的简单比较失效;金融学中,幸存者偏差使得对冲基金指数和共同基金数据库普遍高估行业平均收益;医学研究中,自愿参加临床试验的患者可能在健康状况和治疗依从性上系统性地不同于一般患者群体。

与相关概念的关系

选择偏差与遗漏变量偏误密切相关:自选择可以理解为遗漏了一个同时影响选择与结果的不可观测变量(如"能力")。但两者也有区别——标准遗漏变量偏误源于回归模型设定不完整,而选择偏差来源于样本生成过程中非随机的筛选机制。

选择偏差也是内生性的重要来源之一,与联立性偏误 (Simultaneity Bias) 和测量误差并列。当研究目标是识别因果效应时,这三者都需要被认真对待。