ARTICLE
选择性偏差
选择性偏差 (Selection Bias) 选择性偏差 (Selection Bias) 指因样本选择过程非随机,导致样本无法代表目标总体,使统计推断产生系统性误差。其核心在于:进入样本的概率与结果变量存在关联——当该关联被忽略时,估计量不再无偏或一致。该概念广泛存在于 计量经济学、流行病学 和 因果推断 中。 经济学中的经典表述来自 詹姆斯·赫克曼 (J
选择性偏差 (Selection Bias)
选择性偏差 (Selection Bias) 指因样本选择过程非随机,导致样本无法代表目标总体,使统计推断产生系统性误差。其核心在于:进入样本的概率与结果变量存在关联——当该关联被忽略时,估计量不再无偏或一致。该概念广泛存在于 计量经济学、流行病学 和 因果推断 中。
经济学中的经典表述来自 詹姆斯·赫克曼 (James Heckman),他因样本选择模型于 2000 年获诺贝尔经济学奖。其核心洞察:当个体进入样本是内生决策(如参与劳动市场、接受政策干预)时,直接 OLS 估计会产生遗漏变量型偏误。
产生机制
设总体回归模型 ,其中 。但仅当 时才能观测 ,选择规则为:
当 ,条件期望为:
偏误项即为逆米尔斯比率乘以 ,OLS 不再一致。
主要类型
- 样本选择偏差:仅观测入选样本。如工资方程仅对就业者成立、仅分析存活企业(幸存者偏差)。
- 自选择偏差:个体基于不可观测特征主动选择处理。如参加培训者本身上进心更强,直接比较会高估效果,本质是 遗漏变量偏差。
- 幸存者偏差:仅分析「存活」样本。经典案例:亚伯拉罕·沃尔德 对二战返航飞机的弹孔分析——应加固弹孔最少处而非最多处,因要害中弹的飞机未能返航。
- 伯克森悖论 (对撞偏差):以共同结果为条件时,原本独立的变量可能虚假负相关。如医院样本中两种疾病可能负相关。
- 截断与归并:截断指超阈值观测整体排除;归并指真值被限在区间内。两者均使估计偏离真值。
赫克曼两步法
Heckman 两步法 (Heckit) 是经典修正策略:
第一步:用 Probit模型 估计选择方程,计算逆米尔斯比率:
第二步:将 加入结果方程:
若 显著非零即存在选择性偏差。该方法依赖排他性约束:至少一个变量影响选择但不直接影响结果。
其他策略与诊断
其他方法包括 随机对照试验(金标准)、工具变量法、倾向得分匹配(仅控可观测选择)、双重差分法 和 断点回归设计。
警示信号:样本非随机构成、处理组与对照组基线系统性差异、结果对样本定义敏感。豪斯曼检验 可形式化检测选择性偏差。赫克曼强调:选择性偏差不是技术问题,而是经济主体最优决策行为的数学表征——「谁进入了样本,为什么」与计量技术同等重要。