知经 KNOWECON · 卓越的经济金融统计数学学习平台

两阶段最小二乘法

# 两阶段最小二乘法 (Two-Stage Least Squares, 2SLS)

两阶段最小二乘法 (Two-Stage Least Squares, 2SLSTSLS) 是一种在{{{计量经济学}}}中广泛应用的参数估计方法,主要用于处理线性{{{回归模型}}}中解释变量与{{{误差项}}}相关的情况,即存在{{{内生性}}} (Endogeneity) 问题。当模型的解释变量中存在内生变量时,传统的{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 会产生{{{有偏}}} (biased) 且{{{不一致}}} (inconsistent) 的估计量,而2SLS提供了一种获得{{{一致性估计量}}} (consistent estimator) 的有效途径。2SLS是{{{工具变量}}} (Instrumental Variables, IV) 估计方法中最常见的一种实现形式。

## 内生性问题:为何需要2SLS?

在经典的线性回归模型 $y = \beta_0 + \beta_1 x + u$ 中,一个核心假设是解释变量 $x$ 与误差项 $u$ 不相关,即 $E(u|x) = 0$,这被称为{{{外生性}}} (Exogeneity) 假设。当这个假设被违背,即 $Cov(x, u) \neq 0$ 时,我们就称 $x$ 是一个 内生变量。内生性问题主要源于以下几个方面:

1. {{{遗漏变量偏误}}} (Omitted Variable Bias):模型中遗漏了某个既影响因变量 $y$ 又与解释变量 $x$ 相关的变量。这个被遗漏的变量的影响会进入误差项 $u$,从而导致 $x$ 与 $u$ 相关。 2. {{{联立性}}} (Simultaneity):因变量 $y$ 和解释变量 $x$ 之间存在双向因果关系。例如,在分析价格与需求的关系时,需求量影响价格,同时价格也影响需求量。 3. {{{测量误差}}} (Measurement Error):当解释变量 $x$ 的测量存在误差时,其测量值会与包含真实误差的扰动项相关。

一旦存在内生性,OLS估计量 $\hat{\beta}_{OLS}$ 将偏离真实的 $\beta$ 值,并且即使样本容量趋于无穷大,这种偏差也不会消失。因此,我们需要一种新的估计方法,这便是2SLS的用武之地。

## 2SLS的逻辑核心:工具变量

2SLS的核心思想是利用 工具变量 (Instrumental Variable, IV)。一个合格的工具变量 $z$ 必须满足两个基本条件:

1. 相关性 (Relevance):工具变量 $z$ 必须与内生解释变量 $x$ 相关,即 $Cov(z, x) \neq 0$。这意味着 $z$ 必须能够解释 $x$ 的一部分变动。如果这种相关性很弱,则会导致{{{弱工具变量}}} (Weak Instruments) 问题。 2. 外生性 (Exogeneity),或称排他性约束 (Exclusion Restriction):工具变量 $z$ 必须与模型的误差项 $u$ 不相关,即 $Cov(z, u) = 0$。这意味着工具变量 $z$ 只能通过影响内生变量 $x$ 来间接影响因变量 $y$,而不能有其他直接影响 $y$ 的渠道。

工具变量的作用在于,它能够将内生变量 $x$ 分解为两部分:一部分是由工具变量 $z$ 决定的、与误差项 $u$ 无关的“干净”部分;另一部分是与误差项 $u$ 相关的“污染”部分。2SLS正是通过分离并利用这个“干净”部分来进行估计的。

## 两阶段最小二乘法的步骤

顾名思义,2SLS的估计过程分为两个阶段。我们以一个简单的模型为例进行说明:

结构方程 (Structural Equation): $$ y = \beta_0 + \beta_1 x + u $$ 其中 $x$ 是内生变量 ($Cov(x, u) \neq 0$),我们找到了一个满足条件的工具变量 $z$ ($Cov(z, x) \neq 0$ 且 $Cov(z, u) = 0$)。

### 第一阶段 (First Stage)

目标:清洗内生变量 $x$,得到其外生的预测部分。

在第一阶段,我们将内生变量 $x$ 对所有外生变量(包括工具变量 $z$ 和模型中其他可能的外生控制变量)进行OLS回归。

第一阶段回归 (First-Stage Regression): $$ x = \pi_0 + \pi_1 z + v $$ 通过这个回归,我们得到 $\hat{\pi}_0$ 和 $\hat{\pi}_1$ 的估计值。然后,我们计算 $x$ 的{{{预测值}}} (predicted value),记为 $\hat{x}$: $$ \hat{x} = \hat{\pi}_0 + \hat{\pi}_1 z $$ 这个 $\hat{x}$ 是 $x$ 中可以被工具变量 $z$ 解释的部分。由于 $z$ 是外生的 ($Cov(z, u) = 0$),并且 $\hat{x}$ 只是 $z$ 的线性组合,因此 $\hat{x}$ 也继承了外生性,即 $\hat{x}$ 与误差项 $u$ 是(在渐近意义上)不相关的。

### 第二阶段 (Second Stage)

目标:使用 $x$ 的“干净”部分来估计其对 $y$ 的影响。

在第二阶段,我们用第一阶段得到的预测值 $\hat{x}$ 替换掉原始结构方程中的内生变量 $x$,然后对新方程进行OLS回归。

第二阶段回归 (Second-Stage Regression): $$ y = \beta_0 + \beta_1 \hat{x} + \text{error} $$ 通过这个回归得到的估计量 $\hat{\beta}_1^{2SLS}$ 就是我们所求的两阶段最小二乘估计量。由于 $\hat{x}$ 与误差项不相关,$\hat{\beta}_1^{2SLS}$ 克服了内生性问题,是一个对 $\beta_1$ 的{{{一致性估计量}}}。

重要提示:虽然理论上可以手动分两步执行OLS来获得 $\hat{\beta}_1^{2SLS}$,但这样做得到的{{{标准误}}} (standard errors) 是不正确的。因为第二阶段的OLS回归没有考虑到 $\hat{x}$ 本身是一个在第一阶段中被估计出来的变量,它存在抽样不确定性。因此,在实际应用中,必须使用统计软件中专门的2SLS或IV回归命令(如Stata中的 `ivregress 2sls`,R中的 `iv_robust` 等),这些命令会自动计算出正确的标准误。

## 多元回归模型中的2SLS

当模型包含多个解释变量时,2SLS的逻辑依然适用。假设模型为: $$ y = \beta_0 + \beta_1 x_1 + \beta_2 w_1 + u $$ 其中,$x_1$ 是内生变量,$w_1$ 是外生控制变量。我们找到一个工具变量 $z_1$。

* 第一阶段:将内生变量 $x_1$ 对 所有 外生变量(包括工具变量 $z_1$ 和模型内生的控制变量 $w_1$)进行回归: $$ x_1 = \pi_0 + \pi_1 z_1 + \pi_2 w_1 + v $$ 得到预测值 $\hat{x}_1$。

* 第二阶段:用 $\hat{x}_1$ 替换 $x_1$,对所有解释变量进行回归: $$ y = \beta_0 + \beta_1 \hat{x}_1 + \beta_2 w_1 + \text{error} $$ 得到的 $\hat{\beta}_1$ 和 $\hat{\beta}_2$ 即为2SLS估计量。

识别条件:要估计 $k$ 个内生解释变量的系数,我们至少需要 $k$ 个独立的、不在模型中出现的外部工具变量。这被称为模型识别的 阶数条件 (Order Condition)

## 工具变量的有效性检验

2SLS的成败完全取决于工具变量的质量。因此,检验工具变量的有效性至关重要。

1. 检验相关性 (Testing Relevance): 我们可以在第一阶段回归中检验工具变量的系数是否显著不为零。当有多个工具变量时,我们对所有外部工具变量的系数进行联合显著性{{{F检验}}}。一个普遍接受的经验法则是,如果第一阶段的 F统计量小于10,则表明存在{{{弱工具变量}}} (Weak Instruments) 问题。弱工具变量会导致2SLS估计量在有限样本中存在严重偏差,甚至比OLS的偏差更大。

2. 检验外生性 (Testing Exogeneity): 外生性条件 $Cov(z,u)=0$ 是无法直接检验的,因为它涉及不可观测的误差项 $u$。 然而,在 {{{过度识别}}} (Overidentified) 的情况下(即工具变量的数量 > 内生变量的数量),我们可以进行{{{过度识别检验}}} (Test of Overidentifying Restrictions)。常用的检验方法包括{{{Sargan检验}}}或{{{Hansen J统计量}}}。其原假设为“所有工具变量都是外生的”。如果检验结果拒绝原假设,则说明至少有一个工具变量不满足外生性,这会对整个2SLS估计的有效性提出严重挑战。如果模型是 恰好识别 (Exactly Identified) 的(工具变量数量 = 内生变量数量),则无法进行此项检验,外生性必须完全依赖于经济理论和逻辑论证。

## 总结

两阶段最小二乘法 (2SLS) 是处理回归模型中内生性问题的标准方法。它通过一个两阶段的过程,利用与内生变量相关但与模型误差不相关的工具变量,来获得对模型参数的一致性估计。虽然2SLS是一个强大的工具,但其有效性完全依赖于高质量工具变量的选取,而寻找和验证这样的工具变量往往是实证研究中最具挑战性的环节。在方法论上,2SLS可以看作是更广义的{{{广义矩方法}}} (Generalized Method of Moments, GMM) 在特定假设下的一个特例。