# 遗漏变量偏差 (Omitted Variable Bias)
遗漏变量偏差 (Omitted Variable Bias, OVB) 是{{{统计学}}}和{{{计量经济学}}}中{{{回归分析}}},特别是{{{普通最小二乘法 (OLS)}}}中的一个核心问题。它指的是在回归模型中未能包含一个或多个重要解释变量时,所导致的对模型中已包含变量的系数估计产生系统性偏差。这种偏差使得{{{OLS估计量}}}不具备{{{无偏性}}}和{{{一致性}}},从而可能导致错误的结论和无效的政策建议。
遗漏变量偏差的根本原因是它违反了OLS的一个关键假设——{{{零条件均值假设}}} (Zero Conditional Mean Assumption) 。该假设要求{{{误差项}}} $u$ 的期望值在给定任何解释变量 $x$ 的情况下都为零,即 $E(u|x) = 0$。当存在遗漏变量时,该遗漏变量的影响会进入误差项,如果该遗漏变量又与模型中已有的解释变量相关,那么误差项就会与解释变量相关,从而违反此假设。
## 产生遗漏变量偏差的两个条件
遗漏变量偏差的发生必须同时满足以下两个条件。如果其中任何一个条件不成立,则不会产生偏差。
条件一:遗漏的变量是因变量的一个决定因素。 这个被遗漏的变量(我们称之为 $x_2$)本身必须对{{{因变量}}} $y$ 有影响。换句话说,在包含了所有相关变量的“真实”模型中,$x_2$ 的系数不为零。如果 $x_2$ 本身与 $y$ 无关,那么将其遗漏并不会对其他变量的系数估计产生偏差。
条件二:遗漏的变量与模型中包含的某个解释变量相关。 这个被遗漏的变量 $x_2$ 必须与模型中至少一个已包含的{{{自变量}}}(我们称之为 $x_1$)存在{{{相关性}}}。即 $Corr(x_1, x_2) \neq 0$。如果 $x_2$ 与所有已包含的自变量都不相关,那么它的影响虽然会被吸收进误差项,但并不会系统性地影响对其他变量系数的估计,只会增大误差项的{{{方差}}}。
## 偏差的数学推导
为了精确地理解遗漏变量偏差的来源和大小,我们可以进行数学推导。
假设一个“真实的”{{{总体回归函数}}} (Population Regression Function) 如下,其中 $y$ 同时取决于 $x_1$ 和 $x_2$: $$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + u $$ 在这个真实模型中,我们假设误差项 $u$ 满足零条件均值假设,即 $E(u|x_1, x_2) = 0$。因此,$\beta_1$ 是控制了 $x_2$ 之后,$x_1$ 对 $y$ 的真实{{{因果效应}}}。
现在,假设研究者构建了一个“简化的”或“设定不当的”模型,因为无法观测或忽略了 $x_2$,只包含了 $x_1$: $$ y = \tilde{\beta}_0 + \tilde{\beta}_1 x_1 + v $$ 我们用 $\tilde{\beta}_1$ 来表示这个简化模型中对 $x_1$ 系数的OLS估计量。我们的目标是考察这个估计量 $\tilde{\beta}_1$ 的期望值 $E(\tilde{\beta}_1)$ 是否等于真实的 $\beta_1$。
根据OLS的公式,$\tilde{\beta}_1$ 的计算方式为: $$ \tilde{\beta}_1 = \frac{\sum (x_{1i} - \bar{x}_1)(y_i - \bar{y})}{\sum (x_{1i} - \bar{x}_1)^2} $$ 我们将真实模型的表达式 $y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + u_i$ 代入上式。经过一系列代数运算,我们可以得到 $\tilde{\beta}_1$ 的表达式: $$ \tilde{\beta}_1 = \beta_1 + \beta_2 \frac{\widehat{Cov}(x_1, x_2)}{\widehat{Var}(x_1)} + \frac{\widehat{Cov}(x_1, u)}{\widehat{Var}(x_1)} $$ 其中 $\widehat{Cov}$ 和 $\widehat{Var}$ 分别代表样本协方差和样本方差。
现在我们取其期望值。在大样本下,$\tilde{\beta}_1$ 会收敛于: $$ E(\tilde{\beta}_1) = \beta_1 + \beta_2 \frac{Cov(x_1, x_2)}{Var(x_1)} $$ 这里的 $Cov(x_1, x_2)$ 和 $Var(x_1)$ 是总体协方差和方差。
我们可以定义一个辅助回归,将遗漏变量 $x_2$ 对包含的变量 $x_1$ 进行回归: $$ x_2 = \delta_0 + \delta_1 x_1 + e $$ 其中,该回归的斜率系数 $\delta_1 = \frac{Cov(x_1, x_2)}{Var(x_1)}$。这个系数 $\delta_1$ 精确地度量了 $x_1$ 和 $x_2$ 之间的线性关系。
因此,$\tilde{\beta}_1$ 的期望值可以写成: $$ E(\tilde{\beta}_1) = \beta_1 + \beta_2 \delta_1 $$ 那么,遗漏变量偏差的大小就是: $$ \text{Bias} = E(\tilde{\beta}_1) - \beta_1 = \beta_2 \delta_1 $$ 这个公式清楚地展示了偏差是两个因素的乘积: 1. $\beta_2$:遗漏变量 $x_2$ 对 $y$ 的真实影响(对应条件一)。 2. $\delta_1$:包含变量 $x_1$ 与遗漏变量 $x_2$ 之间的关系(对应条件二)。
只有当 $\beta_2=0$ (条件一不满足) 或 $\delta_1=0$ (条件二不满足) 时,偏差才为零。
## 偏差的方向
在实践中,判断偏差的方向(高估或低估)至关重要。偏差的方向由 $\beta_2$ 和 $\delta_1$ (其符号与 $Corr(x_1, x_2)$ 相同) 的符号共同决定。
| $Corr(x_1, x_2)$ 的符号 | $x_2$ 对 $y$ 的真实影响 ($\beta_2$) 的符号 | 偏差 ($\beta_2 \delta_1$) 的方向 | 对 $\beta_1$ 的估计结果 | | :---: | :---: | :---: | :---: | | 正 (+) | 正 (+) | 正向偏差 | 高估 ($E(\tilde{\beta}_1) > \beta_1$) | | 正 (+) | 负 (-) | 负向偏差 | 低估 ($E(\tilde{\beta}_1) < \beta_1$) | | 负 (-) | 正 (+) | 负向偏差 | 低估 ($E(\tilde{\beta}_1) < \beta_1$) | | 负 (-) | 负 (-) | 正向偏差 | 高估 ($E(\tilde{\beta}_1) > \beta_1$) |
### 经典案例:教育回报率的估计
一个经典的例子是估计教育对工资的影响。 - 简化模型: 研究者试图通过以下模型估计多受一年教育对工资的提升作用: $$ \log(\text{wage}) = \tilde{\beta}_0 + \tilde{\beta}_1 \cdot \text{education} + v $$ - 遗漏变量: 一个重要的遗漏变量是“个人能力”(ability)。 - 分析偏差: 1. 条件一: “个人能力”是否影响工资?是的。在教育水平相同的情况下,能力更高的人通常会获得更高的工资。所以,能力对 $\log(\text{wage})$ 的真实影响 $\beta_2$ 是 正的。 2. 条件二: “个人能力”是否与教育水平相关?是的。能力更高的人可能发现学习更容易,或更愿意接受高等教育。所以,“个人能力”与教育水平呈 正相关 ($Corr(\text{education}, \text{ability}) > 0$),即 $\delta_1 > 0$。 - 结论: 由于偏差项 $\beta_2 \delta_1$ 是一个正数乘以一个正数,结果为正。这意味着 $\tilde{\beta}_1$ 的期望值会大于真实的 $\beta_1$,即 $E(\tilde{\beta}_1) > \beta_1$。因此,简单地用工资对教育进行回归,会 高估 教育的真实回报率,因为估计出的系数 $\tilde{\beta}_1$ 不仅捕捉了教育本身的效果,还错误地吸收了一部分由能力带来的工资溢价。
## 如何处理遗漏变量偏差
由于遗漏变量偏差的严重性,计量经济学发展了多种方法来缓解或解决这个问题:
1. 包含遗漏变量: 最直接的方法。如果在理论上认为某个变量重要且可以被测量,就应将其纳入回归模型中。这要求研究者有扎实的理论基础来指导{{{模型设定}}}。 2. 使用{{{代理变量}}} (Proxy Variables): 当遗漏变量无法直接测量时(如“能力”),可以寻找一个可观测的代理变量来替代它。例如,可以用IQ测试分数或标准化考试成绩作为“能力”的代理。一个好的代理变量应与真实的遗漏变量高度相关。 3. 使用{{{面板数据}}}和{{{固定效应模型}}}: 如果遗漏的变量是不随时间改变的个体特征(如个人天赋、家庭背景),可以使用{{{面板数据}}}(即对多个个体在多个时间点进行观测)。通过{{{固定效应}}} (Fixed Effects) 变换,可以消除所有不随时间变化的变量的影响,从而解决由这类变量遗漏所导致的偏差。 4. {{{工具变量法}}} (Instrumental Variables, IV): 当无法使用以上方法时,IV是一种强大的技术。研究者需要找到一个“工具变量” $z$,它满足: - 相关性 (Relevance): 工具变量 $z$ 与受偏差影响的自变量 $x_1$ 相关。 - 排他性约束 (Exclusion Restriction): 工具变量 $z$ 仅通过影响 $x_1$ 来影响因变量 $y$,而与误差项 $u$ 不相关。 找到一个有效的工具变量是计量经济学实践中最具挑战性的任务之一。 5. {{{随机对照试验}}} (Randomized Controlled Trials, RCTs): 在可能的情况下,通过实验设计,特别是{{{随机化}}}分配处理(即自变量 $x_1$),可以从根本上解决遗漏变量偏差问题。随机化确保了 $x_1$ 与所有其他潜在的遗漏变量(无论是可观测还是不可观测的)在统计上不相关,从而使得条件二不成立,消除了偏差的来源。这是确定因果关系的黄金标准。
总之,遗漏变量偏差是实证研究中必须严肃对待的问题。识别潜在的遗漏变量并运用适当的计量经济学方法来处理它,是得出可靠研究结论的关键步骤。