ARTICLE

选择性偏差

选择性偏差 (Selection Bias) 选择性偏差 (Selection Bias) 指因样本选择过程非随机,导致样本无法代表目标总体,使统计推断产生系统性误差。其核心在于:进入样本的概率与结果变量存在关联——当该关联被忽略时,估计量不再无偏或一致。该概念广泛存在于 计量经济学、流行病学 和 因果推断 中。 经济学中的经典表述来自 詹姆斯·赫克曼 (J

浏览 0 更新 2025-10-26

选择性偏差 (Selection Bias)

选择性偏差 (Selection Bias) 指因样本选择过程非随机,导致样本无法代表目标总体,使统计推断产生系统性误差。其核心在于:进入样本的概率与结果变量存在关联——当该关联被忽略时,估计量不再无偏或一致。该概念广泛存在于 计量经济学流行病学因果推断 中。

经济学中的经典表述来自 詹姆斯·赫克曼 (James Heckman),他因样本选择模型于 2000 年获诺贝尔经济学奖。其核心洞察:当个体进入样本是内生决策(如参与劳动市场、接受政策干预)时,直接 OLS 估计会产生遗漏变量型偏误。

产生机制

设总体回归模型 Yi=Xiβ+εiY_i = X_i \beta + \varepsilon_i,其中 E[εiXi]=0\mathbb{E}[\varepsilon_i \mid X_i] = 0。但仅当 Si=1S_i=1 时才能观测 YiY_i,选择规则为:

Si=1{Ziγ+ui>0}S_i = \mathbf{1}\{ Z_i \gamma + u_i > 0 \}

Cov(εi,ui)0\operatorname{Cov}(\varepsilon_i, u_i) \neq 0,条件期望为:

E[YiXi,Si=1]=Xiβ+E[εiXi,Si=1]Xiβ\mathbb{E}[Y_i \mid X_i, S_i=1] = X_i \beta + \mathbb{E}[\varepsilon_i \mid X_i, S_i=1] \neq X_i \beta

偏误项即为逆米尔斯比率乘以 ρσε\rho\sigma_{\varepsilon},OLS 不再一致。

主要类型

  • 样本选择偏差:仅观测入选样本。如工资方程仅对就业者成立、仅分析存活企业(幸存者偏差)。
  • 自选择偏差:个体基于不可观测特征主动选择处理。如参加培训者本身上进心更强,直接比较会高估效果,本质是 遗漏变量偏差
  • 幸存者偏差:仅分析「存活」样本。经典案例:亚伯拉罕·沃尔德 对二战返航飞机的弹孔分析——应加固弹孔最少处而非最多处,因要害中弹的飞机未能返航。
  • 伯克森悖论 (对撞偏差):以共同结果为条件时,原本独立的变量可能虚假负相关。如医院样本中两种疾病可能负相关。
  • 截断与归并:截断指超阈值观测整体排除;归并指真值被限在区间内。两者均使估计偏离真值。

赫克曼两步法

Heckman 两步法 (Heckit) 是经典修正策略:

第一步:用 Probit模型 估计选择方程,计算逆米尔斯比率:

λ^i=ϕ(Ziγ^)Φ(Ziγ^)\hat{\lambda}_i = \frac{\phi(Z_i \hat{\gamma})}{\Phi(Z_i \hat{\gamma})}

第二步:将 λ^i\hat{\lambda}_i 加入结果方程:

Yi=Xiβ+θλ^i+νiY_i = X_i \beta + \theta \hat{\lambda}_i + \nu_i

θ\theta 显著非零即存在选择性偏差。该方法依赖排他性约束:至少一个变量影响选择但不直接影响结果。

其他策略与诊断

其他方法包括 随机对照试验(金标准)、工具变量法倾向得分匹配(仅控可观测选择)、双重差分法断点回归设计

警示信号:样本非随机构成、处理组与对照组基线系统性差异、结果对样本定义敏感。豪斯曼检验 可形式化检测选择性偏差。赫克曼强调:选择性偏差不是技术问题,而是经济主体最优决策行为的数学表征——「谁进入了样本,为什么」与计量技术同等重要。