ARTICLE

遗漏变量偏误

遗漏变量偏误 (Omitted Variable Bias) 遗漏变量偏误 (Omitted Variable Bias, OVB) 是统计学和计量经济学中回归分析的一个核心问题。当一个本应被包含在模型中、且它既能影响因变量又与模型中至少一个自变量相关的变量，被错误地从模型中遗漏时，就会产生这种偏误。其结果是，模型中的普通最小二乘法 (OLS) 估计量会产生

浏览 166 更新 2025-10-25

遗漏变量偏误 (Omitted Variable Bias)

遗漏变量偏误 (Omitted Variable Bias, OVB) 是统计学和计量经济学中回归分析的一个核心问题。当一个本应被包含在模型中、且它既能影响因变量又与模型中至少一个自变量相关的变量，被错误地从模型中遗漏时，就会产生这种偏误。其结果是，模型中的普通最小二乘法 (OLS) 估计量会产生系统性的偏差和不一致性，导致我们对变量间关系的推断出现错误。

理解和处理遗漏变量偏误是进行可靠的实证研究，尤其是建立因果关系推断的基础。

产生遗漏变量偏误的两个条件

遗漏变量偏误的发生必须同时满足以下两个条件：

相关性条件 (Relevance Condition)：被遗漏的变量必须是因变量 $Y$ 的一个决定因素。换句话说，如果该变量被包含在"真实"的模型中，其系数不为零。
相关性条件 (Correlation Condition)：被遗漏的变量必须与模型中包含的至少一个自变量 $X$ 相关。即，它们的协方差或相关系数不为零。

如果仅仅满足第一个条件，而遗漏的变量与所有包含的自变量都不相关，那么它的影响会被吸收进模型的误差项中，但这不会导致对其他变量系数的估计产生偏误，只会增大误差项的方差。如果仅仅满足第二个条件，即遗漏变量与自变量相关，但它本身不影响因变量，那么遗漏它并不会对模型造成任何问题。

只有当这两个条件同时成立时，OLS估计量才会系统地将遗漏变量对因变量 $Y$ 的部分影响错误地归因于与之相关的自变量 $X$ ，从而产生偏误。

数学解释

为了更清晰地理解偏误是如何产生的，我们考虑一个简单的线性回归模型。假设"真实"的理论模型如下：

Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + u_i

其中：

$Y_i$ 是因变量。
$X_{1i}$ 和 $X_{2i}$ 是两个自变量。
$\beta_0, \beta_1, \beta_2$ 是真实的模型系数。
$u_i$ 是满足 OLS 基本假设的误差项，特别是 $E[u_i|X_{1i},X_{2i}]=0$ 。

现在，假设研究者由于数据不可得等原因，遗漏了变量 $X_2$ ，而估计了下面这个"简化的"模型：

Y_i = \alpha_0 + \alpha_1 X_{1i} + v_i

我们使用 OLS 方法来估计 $\alpha_1$ ，得到的估计量是 $\hat{\alpha}_1$ 。我们关心的是 $\hat{\alpha}_1$ 的期望值 $E[\hat{\alpha}_1]$ 是否等于真实的系数 $\beta_1$ 。

根据 OLS 的公式：

\hat{\alpha}_1 = \frac{\sum_{i=1}^n (X_{1i} - \bar{X}_1)(Y_i - \bar{Y})}{\sum_{i=1}^n (X_{1i} - \bar{X}_1)^2}

将真实的模型代入上式，可以得到 $\hat{\alpha}_1$ 的期望值：

E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot \delta_1

其中， $\delta_1$ 是将遗漏变量 $X_2$ 对包含的变量 $X_1$ 进行辅助回归得到的系数：

X_{2i} = \delta_0 + \delta_1 X_{1i} + \epsilon_i

这个 $\delta_1$ 捕捉了 $X_1$ 和 $X_2$ 之间的线性关系，其值等于 $Cov(X_1, X_2) / Var(X_1)$ 。

因此， $\hat{\alpha}_1$ 的偏误为：

\text{Bias} = E[\hat{\alpha}_1] - \beta_1 = \beta_2 \cdot \delta_1

这个公式清楚地展示了 OVB 的两个条件：

如果 $\beta_2 = 0$ （条件1不满足），则偏误为零。
如果 $\delta_1 = 0$ （意味着 $X_1$ 和 $X_2$ 不相关，条件2不满足），则偏误也为零。

只有当 $\beta_2 \neq 0$ 且 $\delta_1 \neq 0$ 时，偏误项 $\beta_2 \cdot \delta_1$ 才不为零， $\hat{\alpha}_1$ 才是一个有偏估计量。由于这个偏误不会随着样本量的增加而消失，所以它也是一个不一致的估计量。

判断偏误的方向

在实际研究中，即使我们无法获得遗漏变量的数据，我们通常也可以根据理论来判断偏误的方向（高估或低估）。偏误的方向由 $\beta_2$ 和 $Corr(X_1, X_2)$ （其符号与 $\delta_1$ 相同）的符号共同决定。

正向偏误： $E[\hat{\alpha}_1] > \beta_1$ ，即我们高估了 $X_1$ 对 $Y$ 的影响。
负向偏误： $E[\hat{\alpha}_1] < \beta_1$ ，即我们低估了 $X_1$ 对 $Y$ 的影响（甚至可能得到错误的符号）。

经典示例：教育回报率的估计

假设我们想研究教育对个人收入的影响，估计了以下模型：

\log(\text{Wages}) = \alpha_0 + \alpha_1 \cdot \text{Education} + v

这里，我们很可能遗漏了一个重要的变量：个人能力 (Ability)。

条件1 (Relevance)：能力通常会直接影响工资。能力更强的人，即使教育水平相同，也可能获得更高的工资。因此，真实模型中能力的系数 $\beta_2$ 应该大于零 ( $\beta_2 > 0$ )。
条件2 (Correlation)：受教育年限和个人能力很可能是正相关的。能力更强的人可能更擅长学习，也更愿意接受更长时间的教育。因此， $Corr(\text{Education}, \text{Ability}) > 0$ 。

由于 $\beta_2 > 0$ 且相关性为正，偏误 $\beta_2 \cdot \delta_1$ 是正的。这意味着我们估计出的教育回报率 $\hat{\alpha}_1$ 会系统性地高于真实的回报率 $\beta_1$ 。我们把一部分由"能力"带来的工资溢价，错误地归因于"教育"了。

OVB的后果与解决方案

后果：

系数估计有偏且不一致：模型系数无法准确反映变量之间的真实关系。
错误的因果推断：可能得出完全错误的结论，例如将相关性误认为因果关系。
政策建议失效：基于有偏误的模型得出的政策建议可能是无效甚至有害的。

解决方案：

包含遗漏变量：最直接的方法。如果在数据收集中能够测量并包含所有相关的控制变量，OVB问题就可以被解决。
使用代理变量 (Proxy Variables)：寻找一个与不可观测的遗漏变量高度相关的可观测变量作为其代理。例如，使用IQ测试得分作为"能力"的代理变量。
面板数据方法：如果拥有追踪多个个体多年的面板数据，可以使用固定效应模型 (Fixed Effects Model) 来消除那些不随时间变化的遗漏变量所带来的偏误。
工具变量法 (Instrumental Variables, IV)：当存在内生性问题（OVB是其主要来源之一）时，可以使用IV回归。这需要找到一个"工具变量"，它与内生自变量相关，但与误差项不相关。
随机对照试验 (Randomized Controlled Trials, RCTs)：被认为是解决OVB的黄金标准。通过随机分配处理，RCT在设计上切断了自变量与其他所有潜在遗漏变量之间的相关性，从而使条件2不成立，从根本上消除了偏误。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。