知经 KNOWECON · 卓越的经济金融统计数学学习平台

遗漏变量偏误

# 遗漏变量偏误 (Omitted Variable Bias)

遗漏变量偏误 (Omitted Variable Bias, OVB) 是{{{统计学}}}和{{{计量经济学}}}中{{{回归分析}}}的一个核心问题。当一个本应被包含在模型中、且它既能影响{{{因变量}}}又与模型中至少一个{{{自变量}}}相关的变量,被错误地从模型中遗漏时,就会产生这种偏误。其结果是,模型中的{{{普通最小二乘法 (OLS)}}}估计量会产生系统性的偏差和不一致性,导致我们对变量间关系的推断出现错误。

理解和处理遗漏变量偏误是进行可靠的实证研究,尤其是建立{{{因果关系}}}推断的基础。

## 产生遗漏变量偏误的两个条件

遗漏变量偏误的发生必须同时满足以下两个条件:

1. 相关性条件 (Relevance Condition):被遗漏的变量必须是{{{因变量}}} ($Y$) 的一个决定因素。换句话说,如果该变量被包含在“真实”的模型中,其{{{系数}}}不为零。 2. 相关性条件 (Correlation Condition):被遗漏的变量必须与模型中包含的至少一个{{{自变量}}} ($X$) 相关。即,它们的{{{协方差}}}或{{{相关系数}}}不为零。

如果仅仅满足第一个条件,而遗漏的变量与所有包含的自变量都不相关,那么它的影响会被吸收进模型的{{{误差项}}}中,但这不会导致对其他变量系数的估计产生偏误,只会增大误差项的方差。如果仅仅满足第二个条件,即遗漏变量与自变量相关,但它本身不影响因变量,那么遗漏它并不会对模型造成任何问题。

只有当这两个条件同时成立时,OLS估计量才会系统地将遗漏变量对因变量 $Y$ 的部分影响错误地归因于与之相关的自变量 $X$,从而产生偏误。

## 数学解释

为了更清晰地理解偏误是如何产生的,我们考虑一个简单的线性回归模型。假设“真实”的理论模型如下:

$$ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + u_i $$

其中: * $Y_i$ 是因变量。 * $X_{1i}$ 和 $X_{2i}$ 是两个自变量。 * $\beta_0, \beta_1, \beta_2$ 是真实的模型系数。 * $u_i$ 是满足 OLS 基本假设的{{{误差项}}},特别是 $E[u_i|X_{1i},X_{2i}]=0$。

现在,假设研究者由于数据不可得或其他原因,遗漏了变量 $X_2$,而估计了下面这个“简化的”或“错误的”模型:

$$ Y_i = \alpha_0 + \alpha_1 X_{1i} + v_i $$

我们使用 OLS 方法来估计 $\alpha_1$,得到的估计量是 $\hat{\alpha}_1$。我们关心的是 $\hat{\alpha}_1$ 的{{{期望值}}} $E[\hat{\alpha}_1]$ 是否等于真实的系数 $\beta_1$。

根据 OLS 的公式,我们知道:

$$ \hat{\alpha}_1 = \frac{\sum_{i=1}^n (X_{1i} - \bar{X}_1)(Y_i - \bar{Y})}{\sum_{i=1}^n (X_{1i} - \bar{X}_1)^2} $$

将真实的模型 $Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + u_i$ 代入上式,经过一系列推导(此处省略繁琐的代数步骤),我们可以得到 $\hat{\alpha}_1$ 的期望值:

$$ E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot \delta_1 $$

其中,$\delta_1$ 是将遗漏变量 $X_2$ 对包含的变量 $X_1$ 进行辅助回归得到的系数:

$$ X_{2i} = \delta_0 + \delta_1 X_{1i} + \epsilon_i $$

这个 $\delta_1$ 捕捉了 $X_1$ 和 $X_2$ 之间的线性关系,其值等于 $Cov(X_1, X_2) / Var(X_1)$。

因此,$\hat{\alpha}_1$ 的{{{偏误}}} (Bias) 为:

$$ \text{Bias} = E[\hat{\alpha}_1] - \beta_1 = \beta_2 \cdot \delta_1 $$

这个公式清楚地展示了 OVB 的两个条件: * 如果 $\beta_2 = 0$(条件1不满足),则偏误为零。 * 如果 $\delta_1 = 0$(意味着 $X_1$ 和 $X_2$ 不相关,条件2不满足),则偏误也为零。

只有当 $\beta_2 \neq 0$ 且 $\delta_1 \neq 0$ 时,偏误项 $\beta_2 \cdot \delta_1$ 才不为零,$\hat{\alpha}_1$ 才是一个有偏估计量。由于这个偏误不会随着样本量的增加而消失,所以它也是一个不一致的估计量。

## 判断偏误的方向

在实际研究中,即使我们无法获得遗漏变量的数据,我们通常也可以根据理论来判断偏误的方向(高估或低估)。偏误的方向由 $\beta_2$ 和 $Corr(X_1, X_2)$ (其符号与 $\delta_1$ 相同)的符号共同决定。

| | $Corr(X_1, X_2) > 0$ | $Corr(X_1, X_2) < 0$ | | :--- | :--- | :--- | | **$\beta_2 > 0$** | 正向偏误 (Upward Bias) | 负向偏误 (Downward Bias) | | **$\beta_2 < 0$** | 负向偏误 (Downward Bias) | 正向偏误 (Upward Bias) |

* 正向偏误:$E[\hat{\alpha}_1] > \beta_1$,即我们高估了 $X_1$ 对 $Y$ 的影响。 * 负向偏误:$E[\hat{\alpha}_1] < \beta_1$,即我们低估了 $X_1$ 对 $Y$ 的影响 (甚至可能得到错误的符号)。

## 经典示例

示例:教育回报率的估计

假设我们想研究教育对个人收入的影响,估计了以下模型:

$$ \log(\text{Wages}) = \alpha_0 + \alpha_1 \cdot \text{Education} + v $$

这里,我们很可能遗漏了一个重要的变量:个人能力 (Ability)

* 条件1 (Relevance):能力通常会直接影响工资。能力更强的人,即使教育水平相同,也可能获得更高的工资。因此,真实模型中能力的系数 $\beta_2$ 应该大于零 ($\beta_2 > 0$)。 * 条件2 (Correlation):受教育年限和个人能力很可能是正相关的。能力更强的人可能更擅长学习,也更愿意接受更长时间的教育。因此,$Corr(\text{Education}, \text{Ability}) > 0$。

根据我们的偏误方向判断表,由于 $\beta_2 > 0$ 且相关性为正,偏误 $\beta_2 \cdot \delta_1$ 是正的。这意味着我们估计出的教育回报率 $\hat{\alpha}_1$ 会系统性地高于真实的回报率 $\beta_1$。我们把一部分由“能力”带来的工资溢价,错误地归因于“教育”了。

## OVB的后果与解决方案

后果: * 系数估计有偏且不一致:模型系数无法准确反映变量之间的真实关系。 * 错误的因果推断:可能得出完全错误的结论,例如将相关性误认为{{{因果关系}}}。 * 政策建议失效:基于有偏误的模型得出的政策建议可能是无效甚至有害的。

解决方案: 1. 包含遗漏变量:最直接的方法。如果在数据收集中能够测量并包含所有相关的控制变量,OVB问题就可以被解决。然而,像“能力”、“文化”、“管理质量”这类变量往往难以测量。 2. 使用{{{代理变量}}} (Proxy Variables):寻找一个与不可观测的遗漏变量高度相关的可观测变量作为其代理。例如,使用IQ测试得分作为“能力”的代理变量。 3. {{{面板数据}}}方法:如果拥有追踪多个个体多年的{{{面板数据}}},可以使用{{{固定效应模型}}} (Fixed Effects Model) 来消除那些不随时间变化的遗漏变量(如个人天生的能力、公司的固有文化)所带来的偏误。 4. {{{工具变量法}}} (Instrumental Variables, IV):当存在{{{内生性}}}问题(OVB是其主要来源之一)时,可以使用IV回归。这需要找到一个“工具变量”,它与内生自变量相关,但与误差项不相关(即不直接影响因变量)。 5. {{{随机对照试验}}} (Randomized Controlled Trials, RCTs):被认为是解决OVB的黄金标准。通过随机分配处理(例如,随机决定谁接受更多教育),RCT在设计上切断了自变量与其他所有潜在遗漏变量(无论可知还是未知)之间的相关性,从而使条件2不成立,从根本上消除了偏误。