ARTICLE

内生变量

内生变量 (Endogenous Variable) 内生变量 (Endogenous Variable) 是在经济、金融、统计和计量经济模型中,其值由模型内部的其他变量和参数共同决定的变量。简单来说,内生变量是模型的“输出”或“解”,是模型试图解释的对象。这个概念的核心在于“内生性”,即其价值源于模型系统之内。 与内生变量相对的是外生变量 (Exogeno

浏览 51 更新 2025-10-26

内生变量 (Endogenous Variable)

内生变量 (Endogenous Variable) 是在经济、金融、统计和计量经济模型中,其值由模型内部的其他变量和参数共同决定的变量。简单来说,内生变量是模型的“输出”或“解”,是模型试图解释的对象。这个概念的核心在于“内生性”,即其价值源于模型系统之内。

与内生变量相对的是外生变量 (Exogenous Variable),其值被视为由模型外部因素决定,是模型给定的“输入”或“前提条件”。在模型中,外生变量会影响内生变量,但反之不然。

理解内生变量与外生变量的区别是构建和解释任何经济模型计量经济模型的基础。

在经济模型中的含义

在理论经济模型中,内生变量是模型求解的结果。通过一系列描述经济行为的方程(如效用最大化、利润最大化、市场出清等),我们可以解出这些变量的均衡值。

考虑一个基础的凯恩斯主义宏观经济模型:

  1. 国民收入恒等式: Y=C+I+G Y = C + I + G
  2. 消费函数: C=α+β(YT) C = \alpha + \beta (Y - T) , 其中 0<β<1 0 < \beta < 1

在这个模型系统中:

  • Y Y (国民收入) 和 C C (消费) 是 内生变量。它们的值是相互关联的,并由整个系统的方程共同决定。消费依赖于收入,而收入又包含消费。
  • I I (投资)、G G (政府支出) 和 T T (税收) 是 外生变量。在这个简化模型中,我们假设它们的值是由模型外部的政策制定者或市场情绪决定的,是给定的数值。
  • α \alpha (自主消费) 和 β \beta (边际消费倾向) 是模型的 参数

为了看出 Y Y 是如何被“内生地”决定的,我们可以求解该模型。将消费函数代入国民收入恒等式:

Y=(α+β(YT))+I+GY = (\alpha + \beta (Y - T)) + I + G

通过代数运算,我们可以解出 Y Y 均衡值,这被称为模型的约简式 (Reduced Form)

Y(1β)=αβT+I+GY (1 - \beta) = \alpha - \beta T + I + G
Yeq=αβT+I+G1βY_{eq} = \frac{\alpha - \beta T + I + G}{1 - \beta}

这个结果清晰地表明,内生变量 Y Y 的均衡值是由模型中的参数 (α,β \alpha, \beta ) 和外生变量 (T,I,G T, I, G ) 共同决定的。

在计量经济学中的问题:内生性偏误

当我们将理论模型转化为用于数据分析的计量经济模型时,“内生变量”的含义会带来一个非常关键的问题,通常被称为 内生性问题 (Endogeneity Problem)

在标准的线性回归模型中:

y=β0+β1x1+β2x2++βkxk+ϵy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k + \epsilon

普通最小二乘法 (Ordinary Least Squares, OLS) 的一个核心假设是,所有的解释变量 xj x_j 都与误差项 ϵ \epsilon 不相关,即满足零条件均值假设 E(ϵx1,,xk)=0 E(\epsilon | x_1, \ldots, x_k) = 0 。这意味着解释变量必须是外生的。

如果某个解释变量 xj x_j 与误差项 ϵ \epsilon 相关 (Cov(xj,ϵ)0 Cov(x_j, \epsilon) \neq 0 ),那么这个解释变量 xj x_j 就是一个 内生解释变量。在这种情况下,使用OLS进行估计会导致其估计出的系数 β^j \hat{\beta}_j 产生偏误 (biased) 并且是不一致的 (inconsistent)。这意味着即使样本量趋于无穷大,估计出的系数也不会收敛到真实的参数值。因此,基于这个模型的任何结论,特别是关于因果关系的推断,都将是不可靠的。

内生性问题的来源

导致解释变量成为内生变量(即与误差项相关)的主要原因有以下几点:

  1. 遗漏变量偏误 (Omitted Variable Bias)

这是最常见的内生性来源。当一个未被包含在模型中(即遗漏了)的变量 z z 同时影响因变量 y y 和模型中的某个解释变量 x x 时,问题就出现了。由于 z z 被遗漏,它的影响就被包含在了误差项 ϵ \epsilon 中。因为 x x z z 相关,所以 x x 自然就和包含 z z 影响的误差项 ϵ \epsilon 相关了。

  • 示例:研究“教育年限”(x x ) 对“工资”(y y ) 的影响。一个很可能被遗漏的变量是“个人能力”(z z )。能力既会影响一个人接受教育的年限,也会直接影响其工资水平。在回归模型 wage=β0+β1education+ϵ wage = \beta_0 + \beta_1 education + \epsilon 中,“能力”的影响被包含在 ϵ \epsilon 里。由于教育年限和能力正相关,导致 education education 是一个内生解释变量,Cov(education,ϵ)0 Cov(education, \epsilon) \neq 0
  1. 联立性或同时性 (Simultaneity)

当因变量 y y 和解释变量 x x 之间存在双向因果关系或反馈循环时,就会产生联立性。x x 影响 y y ,同时 y y 也反过来影响 x x

  • 示例:在宏观经济学中,研究“总消费”(C C ) 和“国民收入”(Y Y ) 的关系。我们知道消费是收入的函数,但同时,消费也是构成收入的一个主要部分。在一个回归模型 C=β0+β1Y+ϵ C = \beta_0 + \beta_1 Y + \epsilon 中,任何影响消费的随机冲击(包含在 ϵ \epsilon 中)都会通过国民收入核算恒等式进而影响 Y Y 。因此,Y Y ϵ \epsilon 相关,是一个内生解释变量。
  1. 测量误差 (Measurement Error)

如果一个解释变量 x x 的测量存在随机误差,那么我们实际用于回归的观测值就不是真实的 x x^* ,而是 x=x+e x = x^* + e ,其中 e e 是测量误差。在回归模型 y=β0+β1x+ϵ y = \beta_0 + \beta_1 x + \epsilon 中,真实的模型应该是 y=β0+β1x+u y = \beta_0 + \beta_1 x^* + u 。代入后得到 y=β0+β1(xe)+u y = \beta_0 + \beta_1 (x - e) + u ,因此回归的误差项变为 ϵ=uβ1e \epsilon = u - \beta_1 e 。由于我们使用的解释变量 x=x+e x = x^* + e 与新的误差项 ϵ=uβ1e \epsilon = u - \beta_1 e 都含有 e e ,它们之间必然相关 (Cov(x,ϵ)=β1Var(e)0 Cov(x, \epsilon) = -\beta_1 Var(e) \neq 0 )。这使得带有测量误差的解释变量 x x 成为内生变量,并导致系数估计趋向于零,称为衰减偏误 (Attenuation Bias)。

解决内生性问题的方法

由于内生性问题会严重破坏回归结果的可靠性,计量经济学发展了多种方法来处理它:

  • 工具变量法 (Instrumental Variables, IV):这是解决内生性问题的经典方法。其核心是找到一个或多个“工具变量”(Z Z )。一个有效的工具变量必须满足两个条件:
  1. 相关性 (Relevance):工具变量 Z Z 必须与内生解释变量 X X 相关, 即 Cov(Z,X)0 Cov(Z, X) \neq 0
  2. 排他性约束 (Exclusion Restriction):工具变量 Z Z 必须与模型的误差项 ϵ \epsilon 不相关, 即 Cov(Z,ϵ)=0 Cov(Z, \epsilon) = 0 。这意味着 Z Z 只能通过影响 X X 来间接影响 Y Y ,而不能有直接影响 Y Y 的渠道。

常用的IV估计方法是两阶段最小二乘法 (Two-Stage Least Squares, 2SLS)。

  • 面板数据模型 (Panel Data Models):当有多个个体在多个时间点的数据时,可以使用固定效应模型 (Fixed Effects Model) 或差分模型 (First-Difference Model) 来消除不随时间变化的遗漏变量(如个人能力),从而解决由这类遗漏变量引致的内生性问题。
  • 准实验方法 (Quasi-experimental Methods):包括双重差分法 (Difference-in-Differences, DID)、断点回归设计 (Regression Discontinuity Design, RDD) 等,这些方法利用自然实验或政策干预等外部冲击作为识别策略,巧妙地规避了内生性问题。
  • 广义矩估计 (Generalized Method of Moments, GMM):是IV方法的一个更广义的框架,在更弱的假设下也能提供一致的估计量。

总之,识别模型中的内生变量,并正确处理由此引发的内生性问题,是进行严谨的、具有因果推断意义的实证研究的关键步骤。