知经 KNOWECON · 卓越的经济金融统计数学学习平台

弗里希-瓦赫-洛维尔定理

# 弗里希-瓦赫-洛维尔定理 (Frisch-Waugh-Lovell Theorem)

弗里希-瓦赫-洛维尔定理 (Frisch-Waugh-Lovell Theorem),通常简称为 FWL定理,是{{{计量经济学}}}和{{{统计学}}}中的一个基本结论,尤其在{{{线性回归分析}}}中占有核心地位。该定理指出,在一个{{{多元线性回归模型}}}中,任何一个回归系数子集的{{{最小二乘法}}} (OLS) 估计量,都可以通过一个分步回归程序得到。这个程序的核心思想是 "部分析出" (partialling out),即从因变量和其他自变量中剔除掉某组控制变量的线性影响,再对剩余的残差进行回归。

该定理以三位经济学家和统计学家的名字命名:挪威经济学家、诺贝尔奖得主[[拉格纳·弗里希]] (Ragnar Frisch),美国统计学家[[弗雷德里克·V·瓦赫]] (Frederick V. Waugh),以及加拿大经济学家[[迈克尔·C·洛维尔]] (Michael C. Lovell)。

## 定理的陈述与核心逻辑

FWL定理为理解多元回归中“控制其他变量不变”这一概念提供了严谨的代数和几何解释。考虑一个标准的多元线性回归模型:

$$ Y = X\beta + \epsilon $$

其中,$Y$ 是一个 $n \times 1$ 的{{{因变量}}}向量,$X$ 是一个 $n \times k$ 的{{{自变量}}}(或称回归量)矩阵,$\beta$ 是一个 $k \times 1$ 的待估{{{系数}}}向量,$\epsilon$ 是一个 $n \times 1$ 的{{{误差项}}}向量。

现在,我们将自变量矩阵 $X$ 和其对应的系数向量 $\beta$ 分割成两部分:

$$ X = [X_1 \quad X_2] \quad \text{和} \quad \beta = \begin{bmatrix} \beta_1 \\ \beta_2 \end{bmatrix} $$

其中,$X_1$ 是一个 $n \times k_1$ 的矩阵,包含我们感兴趣的自变量;$X_2$ 是一个 $n \times k_2$ 的矩阵,包含我们希望控制的变量 ($k_1 + k_2 = k$)。模型可以重写为:

$$ Y = X_1\beta_1 + X_2\beta_2 + \epsilon $$

直接对这个“长回归” (long regression) 模型进行OLS估计,可以得到 $\beta_1$ 和 $\beta_2$ 的估计量 $\hat{\beta}_1$ 和 $\hat{\beta}_2$。

FWL定理表明,我们可以通过以下三步程序,得到与上述“长回归”完全相同的 $\hat{\beta}_1$ 估计量:

第一步:将 $Y$ 对 $X_2$ 进行回归,并计算{{{残差}}}。这个残差向量我们记为 $Y^*$。 $$ Y^* = Y - X_2(X_2'X_2)^{-1}X_2'Y $$ 这个残差 $Y^*$ 代表了 $Y$ 中不能被 $X_2$ 线性解释的部分。换句话说,它已经“净化”了 $X_2$ 对 $Y$ 的影响。

第二步:将 $X_1$ 中的每一个列向量(即我们感兴趣的每一个自变量)分别对 $X_2$ 进行回归,并计算残差。这些残差构成一个新的矩阵,我们记为 $X_1^*$。 $$ X_1^* = X_1 - X_2(X_2'X_2)^{-1}X_2'X_1 $$ 这个残差矩阵 $X_1^*$ 代表了 $X_1$ 中不能被 $X_2$ 线性解释的部分。同样,它也“净化”了 $X_2$ 对 $X_1$ 的影响。

第三步:将第一步得到的残差 $Y^*$ 对第二步得到的残差矩阵 $X_1^*$ 进行一个“短回归” (short regression)。 $$ Y^* = X_1^*\beta_1 + \text{error} $$ 这个回归得到的系数估计量,记为 $\hat{\beta}_{1,FWL}$,其计算公式为: $$ \hat{\beta}_{1,FWL} = ((X_1^*)'X_1^*)^{-1}(X_1^*)'Y^* $$

FWL定理的结论是: $$ \hat{\beta}_{1,FWL} = \hat{\beta}_1 $$ 即通过分步回归得到的系数估计量与通过一次性完整回归得到的系数估计量是完全相同的。

## 数学证明

为了证明该定理,我们通常使用{{{投影矩阵}}} (Projection Matrix) 和{{{残差生成矩阵}}} (Residual Maker Matrix)。

定义一个针对 $X_2$ 的残差生成矩阵(也称{{{湮没矩阵}}}或正交投影矩阵)$M_2$: $$ M_2 = I - X_2(X_2'X_2)^{-1}X_2' $$ $M_2$ 是一个对称且{{{幂等}}}的矩阵 (i.e., $M_2' = M_2$ and $M_2M_2 = M_2$)。当它左乘任何一个向量时,结果是该向量对 $X_2$ 的列空间进行回归后得到的残差。

因此,FWL定理的三步过程可以简洁地表示为: 1. $Y^* = M_2 Y$ 2. $X_1^* = M_2 X_1$ 3. $\hat{\beta}_{1,FWL} = ((M_2X_1)'(M_2X_1))^{-1}(M_2X_1)'(M_2Y)$

利用 $M_2$ 的对称性和幂等性,我们可以简化 $\hat{\beta}_{1,FWL}$ 的表达式: $$ \hat{\beta}_{1,FWL} = (X_1'M_2'M_2X_1)^{-1}(X_1'M_2'M_2Y) = (X_1'M_2X_1)^{-1}(X_1'M_2Y) $$

现在,我们回顾原始“长回归”模型的{{{正规方程}}} (Normal Equations): $$ (X'X)\hat{\beta} = X'Y $$ 写成分块矩阵形式为: $$ \begin{bmatrix} X_1'X_1 & X_1'X_2 \\ X_2'X_1 & X_2'X_2 \end{bmatrix} \begin{bmatrix} \hat{\beta}_1 \\ \hat{\beta}_2 \end{bmatrix} = \begin{bmatrix} X_1'Y \\ X_2'Y \end{bmatrix} $$ 这可以展开为两个方程组: (1) $X_1'X_1\hat{\beta}_1 + X_1'X_2\hat{\beta}_2 = X_1'Y$ (2) $X_2'X_1\hat{\beta}_1 + X_2'X_2\hat{\beta}_2 = X_2'Y$

从方程 (2) 中,我们可以解出 $\hat{\beta}_2$: $$ \hat{\beta}_2 = (X_2'X_2)^{-1}(X_2'Y - X_2'X_1\hat{\beta}_1) $$ 将这个表达式代入方程 (1): $$ X_1'X_1\hat{\beta}_1 + X_1'X_2(X_2'X_2)^{-1}(X_2'Y - X_2'X_1\hat{\beta}_1) = X_1'Y $$ 整理关于 $\hat{\beta}_1$ 的项: $$ (X_1'X_1 - X_1'X_2(X_2'X_2)^{-1}X_2'X_1)\hat{\beta}_1 = X_1'Y - X_1'X_2(X_2'X_2)^{-1}X_2'Y $$ 对两边同时提取公因子 $X_1'$ 和 $Y$: $$ X_1'[I - X_2(X_2'X_2)^{-1}X_2']X_1\hat{\beta}_1 = X_1'[I - X_2(X_2'X_2)^{-1}X_2']Y $$ 代入残差生成矩阵 $M_2$ 的定义: $$ (X_1'M_2X_1)\hat{\beta}_1 = X_1'M_2Y $$ 最后,解出 $\hat{\beta}_1$: $$ \hat{\beta}_1 = (X_1'M_2X_1)^{-1}(X_1'M_2Y) $$ 这个结果与我们之前得到的 $\hat{\beta}_{1,FWL}$ 完全一致,证明了FWL定理。

## 定理的意义与应用

FWL定理远不止是一个代数技巧,它在理论和实践上都具有深远意义。

1. 理论解释:该定理深刻地揭示了多元回归系数的含义。$\beta_1$ 的估计量衡量的是在剔除了所有 $X_2$ 变量的影响之后,$X_1$ 的“纯粹”变动与 $Y$ 的“纯粹”变动之间的关系。这为“控制变量”提供了坚实的理论基础。

2. 计算效率:在计算机算力有限的时代,FWL定理允许研究者将一个大规模的回归问题分解为几个小规模的回归,从而大大降低了计算的复杂性。例如,在一个包含一个分类变量(有成百上千个类别)的模型中,直接估计所有{{{虚拟变量}}}的系数可能非常困难。

3. 固定效应模型 (Fixed Effects Model):在{{{面板数据}}}分析中,FWL定理是估计{{{固定效应模型}}}的标准方法。为了控制不随时间变化的个体异质性(即个体固定效应),研究者需要为每个个体加入一个虚拟变量。当个体数量 N 非常大时,直接估计这 N 个虚拟变量的系数是不现实的。此时,可以应用FWL定理: * 将个体虚拟变量矩阵视为 $X_2$。 * 对模型中的所有变量(因变量和自变量)进行“去均值” (demeaning) 处理,即减去其各自的组内(个体)均值。这个去均值过程在代数上等价于将变量对个体虚拟变量矩阵进行回归后取残差。 * 在去均值后的数据上运行OLS回归,得到的系数估计量就是我们想要的、剔除了固定效应影响的系数。这个过程也称为“组内估计” (within estimator)。

4. 去趋势化 (Detrending):在{{{时间序列}}}分析中,如果模型中包含一个时间趋势项,我们可以利用FWL定理来获得其他变量的系数。具体做法是,先将因变量和其他所有自变量分别对时间趋势进行回归,然后将得到的两组残差进行回归。

## 关于标准误的重要说明

虽然FWL定理保证了系数估计量的一致性,但在计算{{{标准误}}}和进行{{{假设检验}}}时必须格外小心。

在第三步的“短回归” $Y^* = X_1^*\beta_1 + \text{error}$ 中,如果我们直接使用标准的OLS程序计算标准误,结果将会是错误的。原因在于,误差项的{{{方差}}} $\sigma^2$ 和模型的{{{自由度}}} (degrees of freedom) 的计算出现了偏差。

* 正确的残差平方和 (RSS) 应该来自于原始的“长回归”,而不是第三步的“短回归”。 * 正确的自由度 应该是 $n - k_1 - k_2$(如果包含截距项则是 $n - k_1 - k_2 - 1$),而不是短回归中看似的 $n - k_1$。

因此,正确的方差估计量 $\hat{\sigma}^2$ 应该是: $$ \hat{\sigma}^2 = \frac{Y'(I - X(X'X)^{-1}X')Y}{n - k} = \frac{\text{RSS}_{\text{long reg}}}}{n - k_1 - k_2} $$ 然后,$\hat{\beta}_1$ 的协方差矩阵的正确估计量为: $$ \widehat{Var}(\hat{\beta}_1) = \hat{\sigma}^2 (X_1'M_2X_1)^{-1} $$ 大多数现代统计软件(如Stata, R, Python statsmodels)在执行如固定效应模型等应用FWL思想的命令时,会自动进行这种调整,从而报告正确的标准误。