ARTICLE
遗漏变量偏误
遗漏变量偏误 (Omitted Variable Bias) 遗漏变量偏误 (Omitted Variable Bias, OVB) 是统计学和计量经济学中回归分析的一个核心问题。当一个本应被包含在模型中、且它既能影响因变量又与模型中至少一个自变量相关的变量,被错误地从模型中遗漏时,就会产生这种偏误。其结果是,模型中的普通最小二乘法 (OLS) 估计量会产生
遗漏变量偏误 (Omitted Variable Bias)
遗漏变量偏误 (Omitted Variable Bias, OVB) 是统计学和计量经济学中回归分析的一个核心问题。当一个本应被包含在模型中、且它既能影响因变量又与模型中至少一个自变量相关的变量,被错误地从模型中遗漏时,就会产生这种偏误。其结果是,模型中的普通最小二乘法 (OLS) 估计量会产生系统性的偏差和不一致性,导致我们对变量间关系的推断出现错误。
理解和处理遗漏变量偏误是进行可靠的实证研究,尤其是建立因果关系推断的基础。
产生遗漏变量偏误的两个条件
遗漏变量偏误的发生必须同时满足以下两个条件:
- 相关性条件 (Relevance Condition):被遗漏的变量必须是因变量 的一个决定因素。换句话说,如果该变量被包含在"真实"的模型中,其系数不为零。
- 相关性条件 (Correlation Condition):被遗漏的变量必须与模型中包含的至少一个自变量 相关。即,它们的协方差或相关系数不为零。
如果仅仅满足第一个条件,而遗漏的变量与所有包含的自变量都不相关,那么它的影响会被吸收进模型的误差项中,但这不会导致对其他变量系数的估计产生偏误,只会增大误差项的方差。如果仅仅满足第二个条件,即遗漏变量与自变量相关,但它本身不影响因变量,那么遗漏它并不会对模型造成任何问题。
只有当这两个条件同时成立时,OLS估计量才会系统地将遗漏变量对因变量 的部分影响错误地归因于与之相关的自变量 ,从而产生偏误。
数学解释
为了更清晰地理解偏误是如何产生的,我们考虑一个简单的线性回归模型。假设"真实"的理论模型如下:
其中:
- 是因变量。
- 和 是两个自变量。
- 是真实的模型系数。
- 是满足 OLS 基本假设的误差项,特别是 。
现在,假设研究者由于数据不可得等原因,遗漏了变量 ,而估计了下面这个"简化的"模型:
我们使用 OLS 方法来估计 ,得到的估计量是 。我们关心的是 的期望值 是否等于真实的系数 。
根据 OLS 的公式:
将真实的模型代入上式,可以得到 的期望值:
其中, 是将遗漏变量 对包含的变量 进行辅助回归得到的系数:
这个 捕捉了 和 之间的线性关系,其值等于 。
因此, 的偏误为:
这个公式清楚地展示了 OVB 的两个条件:
- 如果 (条件1不满足),则偏误为零。
- 如果 (意味着 和 不相关,条件2不满足),则偏误也为零。
只有当 且 时,偏误项 才不为零, 才是一个有偏估计量。由于这个偏误不会随着样本量的增加而消失,所以它也是一个不一致的估计量。
判断偏误的方向
在实际研究中,即使我们无法获得遗漏变量的数据,我们通常也可以根据理论来判断偏误的方向(高估或低估)。偏误的方向由 和 (其符号与 相同)的符号共同决定。
- 正向偏误:,即我们高估了 对 的影响。
- 负向偏误:,即我们低估了 对 的影响(甚至可能得到错误的符号)。
经典示例:教育回报率的估计
假设我们想研究教育对个人收入的影响,估计了以下模型:
这里,我们很可能遗漏了一个重要的变量:个人能力 (Ability)。
- 条件1 (Relevance):能力通常会直接影响工资。能力更强的人,即使教育水平相同,也可能获得更高的工资。因此,真实模型中能力的系数 应该大于零 ()。
- 条件2 (Correlation):受教育年限和个人能力很可能是正相关的。能力更强的人可能更擅长学习,也更愿意接受更长时间的教育。因此,。
由于 且相关性为正,偏误 是正的。这意味着我们估计出的教育回报率 会系统性地高于真实的回报率 。我们把一部分由"能力"带来的工资溢价,错误地归因于"教育"了。
OVB的后果与解决方案
后果:
- 系数估计有偏且不一致:模型系数无法准确反映变量之间的真实关系。
- 错误的因果推断:可能得出完全错误的结论,例如将相关性误认为因果关系。
- 政策建议失效:基于有偏误的模型得出的政策建议可能是无效甚至有害的。
解决方案:
- 包含遗漏变量:最直接的方法。如果在数据收集中能够测量并包含所有相关的控制变量,OVB问题就可以被解决。
- 使用代理变量 (Proxy Variables):寻找一个与不可观测的遗漏变量高度相关的可观测变量作为其代理。例如,使用IQ测试得分作为"能力"的代理变量。
- 面板数据方法:如果拥有追踪多个个体多年的面板数据,可以使用固定效应模型 (Fixed Effects Model) 来消除那些不随时间变化的遗漏变量所带来的偏误。
- 工具变量法 (Instrumental Variables, IV):当存在内生性问题(OVB是其主要来源之一)时,可以使用IV回归。这需要找到一个"工具变量",它与内生自变量相关,但与误差项不相关。
- 随机对照试验 (Randomized Controlled Trials, RCTs):被认为是解决OVB的黄金标准。通过随机分配处理,RCT在设计上切断了自变量与其他所有潜在遗漏变量之间的相关性,从而使条件2不成立,从根本上消除了偏误。