ARTICLE

内生性

内生性 (Endogeneity) 内生性(Endogeneity)是计量经济学和因果推断中的核心挑战,指回归模型中解释变量与误差项相关( Cov(x_i, _i) 0)的现象。当内生性存在时,普通最小二乘法(OLS)估计量失去一致性和无偏性,使得基于OLS的统计推断完全失效。识别和处理内生性是实证经济学研究的核心问题,直接关系到研究结论的可信度和政策建议的

浏览 0 更新 2026-07-21

内生性 (Endogeneity)

内生性(Endogeneity)是计量经济学因果推断中的核心挑战,指回归模型中解释变量与误差项相关(Cov(xi,εi)0\operatorname{Cov}(x_i, \varepsilon_i) \neq 0)的现象。当内生性存在时,普通最小二乘法(OLS)估计量失去一致性无偏性,使得基于OLS的统计推断完全失效。识别和处理内生性是实证经济学研究的核心问题,直接关系到研究结论的可信度和政策建议的可靠性。

内生性的三大来源

内生性通常源自以下三种机制,理解其来源是选择恰当修正方法的前提:

  1. 遗漏变量偏误(Omitted Variable Bias)。当与被解释变量相关且与某个解释变量相关的因素未被纳入模型时,该遗漏变量的效应通过误差项被错误地归因于已包含的解释变量。例如,估计教育回报率时,若遗漏了个人能力(Ability),而能力同时影响教育选择和工资水平,则教育变量产生内生性。遗漏变量偏误的方向取决于遗漏变量与解释变量和因变量的相关性符号。
  2. 测量误差(Measurement Error)。当解释变量存在测量误差 xiobs=xitrue+uix_i^{\text{obs}} = x_i^{\text{true}} + u_i 时,观测值与真实值的偏差 uiu_i 进入误差项,导致解释变量与残差相关。在经典测量误差假设(Classical Errors-in-Variables)下,测量误差 uiu_i 与真实值 xitruex_i^{\text{true}} 和模型误差 εi\varepsilon_i 均不相关。此时,简单线性回归的OLS系数依概率收敛于 βσxtrue2σxtrue2+σu2\beta \cdot \frac{\sigma_{x^{\text{true}}}^2}{\sigma_{x^{\text{true}}}^2 + \sigma_u^2},绝对值朝向零偏误,即所谓的衰减偏误(Attenuation Bias)。多变量情形下的偏误方向则更为复杂,可能出现符号反转。
  3. 联立性偏误(Simultaneity Bias / Reverse Causality)。当解释变量与被解释变量之间存在双向因果关系时,内生性不可避免。典型如价格与数量的联立关系:价格影响需求量,需求量反过来影响价格。又如犯罪率与警力投入——警力投入影响犯罪率,但高犯罪率地区也会雇用更多警察,简单的OLS回归无法区分因果方向。

OLS估计量的概率极限

在存在内生性的条件下,考虑真实模型 yi=βxi+εiy_i = \beta x_i + \varepsilon_i,OLS估计量的概率极限为:

plimnβ^OLS=β+Cov(xi,εi)Var(xi)\operatorname{plim}_{n \to \infty} \hat{\beta}_{\text{OLS}} = \beta + \frac{\operatorname{Cov}(x_i, \varepsilon_i)}{\operatorname{Var}(x_i)}

只要 Cov(xi,εi)0\operatorname{Cov}(x_i, \varepsilon_i) \neq 0,OLS估计量就渐近偏离真实参数 β\beta,且该偏差不会随样本量增大而消失。偏差的符号和幅度取决于协方差的方向和大小。这意味着即使在大样本下,基于内生变量的OLS估计也无法准确反映因果效应,估计结果缺乏经济学意义。

内生性的处理方法

计量经济学发展了一系列应对内生性的方法,构成了因果推断工具箱的核心内容。按策略可分为以下四大类:

  • 工具变量法(IV)与两阶段最小二乘法(2SLS)。寻找一个与内生变量相关(相关性条件)且与误差项无关(外生性条件)的工具变量 ziz_i,通过两阶段程序提取内生变量中的外生变异。第一阶段用工具变量预测内生变量,第二阶段用预测值替代原内生变量进行回归。经验法则要求第一阶段F统计量大于10,以避免弱工具变量问题。
  • 面板数据方法。当内生性来源于不随时间变化的遗漏变量时,固定效应模型(Fixed Effects)通过对个体均值做离差变换来消除个体异质性。一阶差分(First Differences)是另一种策略。若内生性随时间变化,则可使用动态面板GMM方法(Arellano-Bond估计量)。
  • 自然实验准实验方法。利用政策变化、制度特征或地理断点等外生冲击识别因果效应。具体包括双重差分法(Difference-in-Differences)、断点回归设计(Regression Discontinuity Design)和合成控制法(Synthetic Control Method)。这些方法的核心优势在于依赖可验证的识别假设而非不可检验的排他性约束。
  • 结构模型方法。从经济理论出发,完整撰写联立方程组,通过广义矩估计(GMM)或最大似然估计(MLE)对系统进行联合估计。结构方法的优势在于透明地刻画内生性的理论来源,但对模型设定较为敏感。

内生性的诊断检验

Hausman检验是检验内生性的经典方法。其基本思路是:在原假设(变量外生)下,OLS和IV估计量均一致但OLS更有效;若两者差异显著,则表明存在内生性。检验统计量为:

H=(β^IVβ^OLS)[Var^(β^IV)Var^(β^OLS)]1(β^IVβ^OLS)dχk2H = (\hat{\beta}_{\text{IV}} - \hat{\beta}_{\text{OLS}})' [\hat{\operatorname{Var}}(\hat{\beta}_{\text{IV}}) - \hat{\operatorname{Var}}(\hat{\beta}_{\text{OLS}})]^{-1} (\hat{\beta}_{\text{IV}} - \hat{\beta}_{\text{OLS}}) \xrightarrow{d} \chi^2_k

此外,过度识别约束检验Sargan-Hansen J检验)用于在工具变量数量超过内生变量数量时评估工具变量的外生性。弱工具变量检验(第一阶段F统计量)则是诊断工具变量相关性的必要步骤,Stock-Yogo(2005)提供的临界值表为判断弱工具变量的严重程度提供了标准参考。

经典经济学案例

内生性问题遍及经济学的各个子领域。在劳动经济学中,Angrist和Krueger(1991)以出生季度作为工具变量,利用义务教育法造成的入学年龄差异来识别教育对工资的因果回报。在发展经济学中,Acemoglu、Johnson和Robinson(2001)以殖民者死亡率作为制度的工具变量,估计制度质量对长期经济增长的因果效应,揭示了经济增长中制度内生的难题。在健康经济学中,医疗支出与健康结果的双向因果关系使简单的OLS回归无法识别医疗的边际效用。这些经典案例深刻说明:处理内生性的关键在于找到一个可信的外生变异来源——这往往比复杂的估计技术本身更为重要。正如Angrist和Pischke(2009)在《基本无害的计量经济学》中所强调的,研究设计(而非计量技巧)才是识别因果效应的根本保障。在实际应用中,研究者应当优先考虑研究设计的可信度,再辅以恰当的计量方法,而非在不加诊断的情况下盲目套用工具变量或面板数据技术。