ARTICLE

选择性偏差

选择性偏差 (Selection Bias) 选择性偏差 (Selection Bias) 指因样本选择过程非随机，导致样本无法代表目标总体，使统计推断产生系统性误差。其核心在于：进入样本的概率与结果变量存在关联——当该关联被忽略时，估计量不再无偏或一致。该概念广泛存在于计量经济学、流行病学和因果推断中。经济学中的经典表述来自詹姆斯·赫克曼 (J

浏览 0 更新 2025-10-26

选择性偏差 (Selection Bias)

选择性偏差 (Selection Bias) 指因样本选择过程非随机，导致样本无法代表目标总体，使统计推断产生系统性误差。其核心在于：进入样本的概率与结果变量存在关联——当该关联被忽略时，估计量不再无偏或一致。该概念广泛存在于计量经济学、流行病学和因果推断中。

经济学中的经典表述来自詹姆斯·赫克曼 (James Heckman)，他因样本选择模型于 2000 年获诺贝尔经济学奖。其核心洞察：当个体进入样本是内生决策（如参与劳动市场、接受政策干预）时，直接 OLS 估计会产生遗漏变量型偏误。

产生机制

设总体回归模型 $Y_i = X_i \beta + \varepsilon_i$ ，其中 $\mathbb{E}[\varepsilon_i \mid X_i] = 0$ 。但仅当 $S_i=1$ 时才能观测 $Y_i$ ，选择规则为：

S_i = \mathbf{1}\{ Z_i \gamma + u_i > 0 \}

当 $\operatorname{Cov}(\varepsilon_i, u_i) \neq 0$ ，条件期望为：

\mathbb{E}[Y_i \mid X_i, S_i=1] = X_i \beta + \mathbb{E}[\varepsilon_i \mid X_i, S_i=1] \neq X_i \beta

偏误项即为逆米尔斯比率乘以 $\rho\sigma_{\varepsilon}$ ，OLS 不再一致。

主要类型

样本选择偏差：仅观测入选样本。如工资方程仅对就业者成立、仅分析存活企业（幸存者偏差）。
自选择偏差：个体基于不可观测特征主动选择处理。如参加培训者本身上进心更强，直接比较会高估效果，本质是遗漏变量偏差。
幸存者偏差：仅分析「存活」样本。经典案例：亚伯拉罕·沃尔德对二战返航飞机的弹孔分析——应加固弹孔最少处而非最多处，因要害中弹的飞机未能返航。
伯克森悖论 (对撞偏差)：以共同结果为条件时，原本独立的变量可能虚假负相关。如医院样本中两种疾病可能负相关。
截断与归并：截断指超阈值观测整体排除；归并指真值被限在区间内。两者均使估计偏离真值。

赫克曼两步法

Heckman 两步法 (Heckit) 是经典修正策略：

第一步：用 Probit模型估计选择方程，计算逆米尔斯比率：

\hat{\lambda}_i = \frac{\phi(Z_i \hat{\gamma})}{\Phi(Z_i \hat{\gamma})}

第二步：将 $\hat{\lambda}_i$ 加入结果方程：

Y_i = X_i \beta + \theta \hat{\lambda}_i + \nu_i

若 $\theta$ 显著非零即存在选择性偏差。该方法依赖排他性约束：至少一个变量影响选择但不直接影响结果。

其他策略与诊断

其他方法包括随机对照试验（金标准）、工具变量法、倾向得分匹配（仅控可观测选择）、双重差分法和断点回归设计。

警示信号：样本非随机构成、处理组与对照组基线系统性差异、结果对样本定义敏感。豪斯曼检验可形式化检测选择性偏差。赫克曼强调：选择性偏差不是技术问题，而是经济主体最优决策行为的数学表征——「谁进入了样本，为什么」与计量技术同等重要。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。