知经 KNOWECON · 卓越的经济金融统计数学学习平台

辅助回归

# 辅助回归 (Auxiliary Regression)

辅助回归 (Auxiliary Regression) 是在{{{计量经济学}}}和统计学中,为了完成一项更大的分析任务而执行的中间步骤的{{{回归分析}}}。它本身的目的不是为了解释变量之间的因果关系或进行经济学意义上的推断,而是作为一种工具,用于计算特定的统计量、执行{{{假设检验}}}或构建新的变量,以服务于一个主要的、我们更关心的回归模型(称为“主回归”或“一阶回归”)。

可以将辅助回归理解为主回归模型分析过程中的一个“子程序”或“诊断工具”。它的因变量和自变量的设定完全取决于其要达成的特定目的。

## 定义与目的

假设我们关注的主回归模型是:

$$ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_k X_{ik} + u_i $$

在这个模型中,我们希望得到关于系数 $\beta_j$ 的无偏、一致且有效的估计。然而,为了确保{{{普通最小二乘法 (OLS)}}}估计量的优良性质,我们需要满足一系列经典线性回归模型的假定,例如无{{{多重共线性}}}、{{{同方差性}}}和无{{{自相关}}}。同时,我们也需要确保自变量是{{{外生性}}}的。

辅助回归的核心目的就是帮助我们:

1. 检验主回归模型是否满足某些关键假定。 2. 在主回归模型不满足某些假定时,提供解决方案

以下是辅助回归在计量经济学中的几个最主要的应用场景。

## 主要应用

### 应用一:检验多重共线性 (Multicollinearity) 与计算方差膨胀因子 (VIF)

当主回归模型中的自变量之间存在高度线性相关关系时,就会出现{{{多重共线性}}}问题,这会导致{{{OLS}}}估计量的{{{方差}}}变得非常大,从而降低估计的精度。

为了诊断每个自变量 $X_j$ 的共线性严重程度,我们使用{{{方差膨胀因子 (VIF)}}}进行衡量。VIF的计算就依赖于一个辅助回归。

* 辅助回归的构建: 将主回归中的某一个自变量 $X_j$ 作为因变量,并将其对所有其他自变量进行回归: $$ X_{ij} = \alpha_0 + \alpha_1 X_{i1} + \dots + \alpha_{j-1} X_{i,j-1} + \alpha_{j+1} X_{i,j+1} + \dots + \alpha_k X_{ik} + v_i $$ * 目的与计算: 这个辅助回归的目的是看其他自变量在多大程度上可以线性地解释 $X_j$。我们从这个回归中获取其{{{R平方}}},记为 $R_j^2$。$R_j^2$ 的值越接近1,说明 $X_j$ 与其他自变量的共线性越强。 然后,变量 $X_j$ 的方差膨胀因子定义为: $$ VIF_j = \frac{1}{1 - R_j^2} $$ 通常认为,如果 $VIF_j > 10$(对应于 $R_j^2 > 0.9$),则表明存在严重的的多重共线性问题。

### 应用二:检验异方差性 (Heteroskedasticity)

{{{同方差性}}}假定要求误差项 $u_i$ 的方差对于所有自变量的观测值都是一个常数,即 $Var(u_i | X_i) = \sigma^2$。如果这个假定不成立,则存在{{{异方差性}}}。常用的异方差性检验方法,如{{{布罗施-培根检验 (Breusch-Pagan Test)}}} 和 {{{怀特检验 (White Test)}}},都使用了辅助回归。

{{{布罗施-培根检验}}} 为例:

1. 第一步:对主回归模型 $Y_i = \beta_0 + \beta_1 X_{i1} + \dots + \beta_k X_{ik} + u_i$ 进行OLS估计,并得到{{{残差}}} $\hat{u}_i$。

2. 第二步:构建辅助回归: 将残差的平方 $\hat{u}_i^2$ 作为因变量,对主回归中所有的原始自变量进行回归: $$ \hat{u}_i^2 = \delta_0 + \delta_1 X_{i1} + \delta_2 X_{i2} + \dots + \delta_k X_{ik} + e_i $$ 这个辅助回归的核心思想是检验误差项的方差(由 $\hat{u}_i^2$ 代理)是否系统地随着自变量 $X$ 的变化而变化。

3. 第三步:进行假设检验: * 原假设 $H_0: \delta_1 = \delta_2 = \dots = \delta_k = 0$。如果原假设成立,说明自变量对残差平方没有解释力,即不存在异方差性。 * 检验统计量:可以使用该辅助回归的{{{F检验}}}来检验所有 $\delta_j$ 的联合显著性。或者,更常用的是计算 LM (Lagrange Multiplier) 统计量:$LM = n \times R^2$,其中 $n$ 是样本量,$R^2$ 是此辅助回归的R平方。在原假设下,该统计量近似服从自由度为 $k$ 的{{{卡方分布}}} ($\chi^2(k)$)。如果统计量的值大于临界值,则拒绝原假设,认为存在异方差性。

{{{怀特检验}}} 则是此方法的一个更一般的形式,其辅助回归的自变量不仅包括原始的 $X$ 变量,还包括它们的平方项和交叉相乘项,以捕捉更复杂的异方差形式。

### 应用三:工具变量法与两阶段最小二乘法 (2SLS)

当主回归模型中存在{{{内生性}}}问题时(例如,某个自变量 $X_k$ 与误差项 $u$ 相关,即 $Cov(X_k, u) \neq 0$),OLS估计是有偏且不一致的。{{{工具变量 (IV)}}} 估计是解决该问题的标准方法,而{{{两阶段最小二乘法 (2SLS)}}} 是实现IV估计最常用的技术,其第一阶段就是一个辅助回归。

假设 $X_k$ 是内生变量,而我们找到了一个或多个有效的{{{工具变量}}} $Z$($Z$ 与 $X_k$ 相关,但与 $u$ 不相关)。

1. 第一阶段回归 (First-Stage Regression):这是一个辅助回归。 将内生变量 $X_k$ 对模型中所有{{{外生性}}}自变量以及所有工具变量 $Z$ 进行回归: $$ X_{ik} = \pi_0 + \pi_1 X_{i1} + \dots + \pi_{k-1} X_{i,k-1} + \gamma_1 Z_{i1} + \dots + \gamma_m Z_{im} + v_i $$ 这个辅助回归的目的是将 $X_k$ 分解为两部分:一部分是由外生变量和工具变量所解释的“干净”部分,另一部分是与主回归误差项 $u$ 相关的“污染”部分(残差 $v_i$)。 我们从这个回归中得到 $X_k$ 的{{{拟合值}}} $\hat{X}_{ik}$。

2. 第二阶段回归 (Second-Stage Regression): 将主回归模型中的内生变量 $X_k$ 替换为其在第一阶段得到的拟合值 $\hat{X}_{ik}$,然后进行OLS回归: $$ Y_i = \beta_0 + \beta_1 X_{i1} + \dots + \beta_{k-1} X_{i,k-1} + \beta_k \hat{X}_{ik} + \epsilon_i $$ 由于 $\hat{X}_{ik}$ 只是外生变量和工具变量的线性组合,它与主回归的误差项 $u$ 是不相关的。因此,从第二阶段回归中得到的估计量 $\hat{\beta}_k$ 是对真实参数 $\beta_k$ 的一致估计。

### 应用四:检验序列相关 (Serial Correlation)

在{{{时间序列}}}分析中,我们常常需要检验误差项是否存在{{{自相关}}}(或称序列相关),即 $u_t$ 是否与其自身的滞后项(如 $u_{t-1}, u_{t-2}$)相关。{{{布罗施-戈弗雷检验 (Breusch-Godfrey Test)}}} 是一个灵活的检验方法,它同样依赖于辅助回归。

1. 第一步:对主回归模型 $Y_t = \beta_0 + \beta_1 X_{t1} + \dots + \beta_k X_{tk} + u_t$ 进行OLS估计,得到残差 $\hat{u}_t$。

2. 第二步:构建辅助回归: 将当期残差 $\hat{u}_t$ 对所有原始自变量以及残差的 $p$ 阶滞后项进行回归: $$ \hat{u}_t = \gamma_0 + \gamma_1 X_{t1} + \dots + \gamma_k X_{tk} + \rho_1 \hat{u}_{t-1} + \rho_2 \hat{u}_{t-2} + \dots + \rho_p \hat{u}_{t-p} + e_t $$

3. 第三步:进行假设检验: * 原假设 $H_0: \rho_1 = \rho_2 = \dots = \rho_p = 0$。如果原假设成立,说明残差的滞后项对当期残差没有解释力,即不存在最高 $p$ 阶的序列相关。 * 检验统计量:通常使用LM统计量 $(n-p) \times R^2$,其中 $R^2$ 来自这个辅助回归。在原假设下,该统计量近似服从自由度为 $p$ 的 $\chi^2(p)$ 分布。

## 结论

辅助回归 是现代计量经济学分析中不可或缺的一环。它本身通常没有直接的经济学解释价值,其系数(如 $\alpha, \delta, \pi, \rho$)的大小和符号往往不是我们关心的重点。相反,我们利用辅助回归来产生一些关键的“副产品”,例如:一个可以用于构建检验统计量的 $R^2$(如在VIF、 Breusch-Pagan检验中),或者一个可以在后续回归中使用的“干净”的拟合值(如在2SLS中)。熟练掌握各种辅助回归的构建和用途,是进行严谨、可靠的实证研究的基础。