ARTICLE

分块回归

分块回归 (Partitioned Regression) 分块回归(Partitioned Regression)是计量经济学与线性代数中处理多元线性回归模型的一种重要技术。它允许研究者将解释变量分成不同的组别,并分别考察某一组变量在剔除其他变量影响后对因变量的净效应。这一理论的核心支撑是著名的Frisch-Waugh-Lovell定理(FWL Theor

浏览 0 更新 2025-12-20

分块回归 (Partitioned Regression)

分块回归(Partitioned Regression)是计量经济学线性代数中处理多元线性回归模型的一种重要技术。它允许研究者将解释变量分成不同的组别,并分别考察某一组变量在剔除其他变量影响后对因变量的净效应。这一理论的核心支撑是著名的Frisch-Waugh-Lovell定理(FWL Theorem)。

模型设定与FWL定理

考虑一个标准的线性模型,将其设计矩阵XX划分为两个子集(或分块)X1X_1X2X_2

Y=X1β1+X2β2+ϵY = X_1\beta_1 + X_2\beta_2 + \epsilon

其中YYn×1n \times 1的被解释变量向量,X1X_1n×k1n \times k_1的矩阵包含第一组变量(如控制变量),X2X_2n×k2n \times k_2的矩阵包含第二组变量(如研究者关心的核心解释变量),β1\beta_1β2\beta_2分别是对应的待估计参数,ϵ\epsilon是随机扰动项。在普通最小二乘法(OLS)的框架下,目标是找到使残差平方和最小化的估计量β^1\hat{\beta}_1β^2\hat{\beta}_2

Frisch-Waugh-Lovell定理提供了分块回归的理论基础。该定理指出,通过以下三个步骤得到的X2X_2的系数估计值,与直接对全样本进行OLS回归得到的β^2\hat{\beta}_2完全一致:第一步,将YYX1X_1进行回归,得到残差向量eYX1e_{Y|X_1},这个残差代表了YY中无法被X1X_1解释的部分。第二步,将X2X_2的每一列分别对X1X_1进行回归,得到残差矩阵eX2X1e_{X_2|X_1},这个残差矩阵代表了X2X_2中与X1X_1线性无关的净变化部分。第三步,将eYX1e_{Y|X_1}eX2X1e_{X_2|X_1}进行回归,所得的系数向量即为β^2\hat{\beta}_2

数学推导与投影矩阵

为了严谨地证明上述过程,需要引入投影矩阵和残差生成矩阵。定义针对X1X_1的投影矩阵P1=X1(X1X1)1X1P_1 = X_1(X_1'X_1)^{-1}X_1',对应的残差生成矩阵M1=IP1=IX1(X1X1)1X1M_1 = I - P_1 = I - X_1(X_1'X_1)^{-1}X_1'M1M_1具有三个重要性质:幂等性(M1M1=M1M_1 M_1 = M_1)、对称性(M1=M1M_1' = M_1)、正交性(M1X1=0M_1 X_1 = 0,意味着M1M_1可以将任何向量投影到与X1X_1所在的列空间正交的正交补空间中)。

回到回归方程,在等号两边同时左乘M1M_1M1Y=M1X1β1+M1X2β2+M1ϵM_1 Y = M_1 X_1 \beta_1 + M_1 X_2 \beta_2 + M_1 \epsilon。由于M1X1=0M_1 X_1 = 0,上式简化为M1Y=M1X2β2+M1ϵM_1 Y = M_1 X_2 \beta_2 + M_1 \epsilon。此时β2\beta_2的OLS估计量为:

β^2=(X2M1X2)1X2M1Y\hat{\beta}_2 = (X_2' M_1 X_2)^{-1} X_2' M_1 Y

这说明β^2\hat{\beta}_2仅取决于YYX2X_2X1X_1正交空间上的投影。

经济学意义与应用

分块回归在经济学研究中具有深刻的直观意义,通常被称为变量剥离或偏回归(Partialling Out)。在进行实证分析时,我们往往担心研究的核心变量X2X_2与其他变量X1X_1存在相关性。如果直接做YYX2X_2的一元回归,可能会产生遗漏变量偏差。通过分块回归的逻辑可以理解:加入X1X_1作为控制变量,本质上是从YYX2X_2中抽离掉受X1X_1影响的部分;β^2\hat{\beta}_2衡量的是在保持X1X_1不变的情况下,X2X_2变动一个单位对YY的影响,这种"保持不变"在数学上通过M1M_1矩阵的正交化处理得以实现。

分块回归不仅在理论上重要,在数值计算和统计诊断中也有广泛应用。通过分块回归得到的残差eYX1e_{Y|X_1}eX2X1e_{X_2|X_1}之间的相关性,即为YYX2X_2在控制了X1X_1之后的偏相关系数。在多重共线性诊断方面,如果X2X_2能够被X1X_1很好地解释,那么M1X2M_1 X_2将趋近于零,导致(X2M1X2)(X_2' M_1 X_2)矩阵接近奇异矩阵,这正是多重共线性导致标准误膨胀的数学解释。在添加变量检验中,在现有模型中加入新变量,可以通过分块回归快速判断该新变量是否有显著的解释力,而不必重新计算整个模型的逆矩阵

总结

分块回归是理解多元线性回归精髓的关键。它告诉我们,多元回归并非简单的相关性叠加,而是一种在复杂的变量网络中提取净效应的过程。掌握了分块回归,就掌握了高斯-马尔可夫定理在复杂模型下的运作机理,也为后续学习面板数据分析中的固定效应模型(如组内变换)打下了坚实的数学基础。