遗漏变量偏差 (Omitted Variable Bias, OVB)
OVB是回归分析核心问题→普通最小二乘法模型中遗漏重要解释变量→导致已含变量系数OLS估计量产生系统性偏差→失无偏性+一致性→错误结论无效政策。根源:违OLS关键假设→零条件均值 E(u∣X)=0→遗漏变量入误差项→若与含X相关→误差与X相关→假设破。
两条件与数学推导
①遗漏变量 x2须是因变量y决定因素(β2=0→y真实模型含x2)。②遗漏变量与模型中含的自变量x1相关(Corr(x1,x2)=0)。两条件缺一→无偏。
数学:真实模型y=β0+β1x1+β2x2+u(E(u∣x1,x2)=0→β1为控制x2后x1对y的真实因果效应)。简化模型y=β~0+β~1x1+v→代入真实表达→取期望:
E(β~1)=β1+β2Var(x1)Cov(x1,x2)=β1+β2δ1
偏差=Bias=E(β~1)−β1=β2δ1。δ1=Cov(x1,x2)/Var(x1)→x2对x1辅助回归斜率。
偏差方向:由β2⋅sign(Corr(x1,x2))定→正正→高估;正负→低估;负正→低估;负负→高估。
经典例与处理
教育回报率:简化log(wage)=β~0+β~1⋅educ+v→漏"能力"(ability)。①能力影响工资→β2>0;②能力与教育正相关→δ1>0→偏差=正×正=正→高估教育回报(β~1捕捉教育+部分能力溢价)。
五处理法:①直接纳入量测遗漏变量(需模型设定理论指导)。②代理变量(不可测→可测替→如IQ替能力→需高相关)。③面板数据+固定效应模型(漏不随时变个体特征→FE变换消除)。④工具变量法IV:找z满足相关性(z与x1有关)+排他(z仅通过x1影响y→与u无关→最难挑战)。⑤随机对照试验RCT→随机化分配x1→确保x1与所有潜在遗漏变量无关→条件二破→因果推断黄金标准。