分块回归 (Partitioned Regression)
分块回归(Partitioned Regression)是计量经济学与线性代数中处理多元线性回归模型的一种重要技术。它允许研究者将解释变量分成不同的组别,并分别考察某一组变量在剔除其他变量影响后对因变量的净效应。这一理论的核心支撑是著名的Frisch-Waugh-Lovell定理(FWL Theorem)。
模型设定与FWL定理
考虑一个标准的线性模型,将其设计矩阵X划分为两个子集(或分块)X1和X2:
Y=X1β1+X2β2+ϵ
其中Y是n×1的被解释变量向量,X1是n×k1的矩阵包含第一组变量(如控制变量),X2是n×k2的矩阵包含第二组变量(如研究者关心的核心解释变量),β1和β2分别是对应的待估计参数,ϵ是随机扰动项。在普通最小二乘法(OLS)的框架下,目标是找到使残差平方和最小化的估计量β^1和β^2。
Frisch-Waugh-Lovell定理提供了分块回归的理论基础。该定理指出,通过以下三个步骤得到的X2的系数估计值,与直接对全样本进行OLS回归得到的β^2完全一致:第一步,将Y对X1进行回归,得到残差向量eY∣X1,这个残差代表了Y中无法被X1解释的部分。第二步,将X2的每一列分别对X1进行回归,得到残差矩阵eX2∣X1,这个残差矩阵代表了X2中与X1线性无关的净变化部分。第三步,将eY∣X1对eX2∣X1进行回归,所得的系数向量即为β^2。
数学推导与投影矩阵
为了严谨地证明上述过程,需要引入投影矩阵和残差生成矩阵。定义针对X1的投影矩阵P1=X1(X1′X1)−1X1′,对应的残差生成矩阵M1=I−P1=I−X1(X1′X1)−1X1′。M1具有三个重要性质:幂等性(M1M1=M1)、对称性(M1′=M1)、正交性(M1X1=0,意味着M1可以将任何向量投影到与X1所在的列空间正交的正交补空间中)。
回到回归方程,在等号两边同时左乘M1:M1Y=M1X1β1+M1X2β2+M1ϵ。由于M1X1=0,上式简化为M1Y=M1X2β2+M1ϵ。此时β2的OLS估计量为:
β^2=(X2′M1X2)−1X2′M1Y
这说明β^2仅取决于Y和X2在X1正交空间上的投影。
经济学意义与应用
分块回归在经济学研究中具有深刻的直观意义,通常被称为变量剥离或偏回归(Partialling Out)。在进行实证分析时,我们往往担心研究的核心变量X2与其他变量X1存在相关性。如果直接做Y对X2的一元回归,可能会产生遗漏变量偏差。通过分块回归的逻辑可以理解:加入X1作为控制变量,本质上是从Y和X2中抽离掉受X1影响的部分;β^2衡量的是在保持X1不变的情况下,X2变动一个单位对Y的影响,这种"保持不变"在数学上通过M1矩阵的正交化处理得以实现。
分块回归不仅在理论上重要,在数值计算和统计诊断中也有广泛应用。通过分块回归得到的残差eY∣X1和eX2∣X1之间的相关性,即为Y与X2在控制了X1之后的偏相关系数。在多重共线性诊断方面,如果X2能够被X1很好地解释,那么M1X2将趋近于零,导致(X2′M1X2)矩阵接近奇异矩阵,这正是多重共线性导致标准误膨胀的数学解释。在添加变量检验中,在现有模型中加入新变量,可以通过分块回归快速判断该新变量是否有显著的解释力,而不必重新计算整个模型的逆矩阵。
总结
分块回归是理解多元线性回归精髓的关键。它告诉我们,多元回归并非简单的相关性叠加,而是一种在复杂的变量网络中提取净效应的过程。掌握了分块回归,就掌握了高斯-马尔可夫定理在复杂模型下的运作机理,也为后续学习面板数据分析中的固定效应模型(如组内变换)打下了坚实的数学基础。