ARTICLE

分块矩阵与回归

分块矩阵与回归 (Partitioned Matrix and Regression) 分块矩阵 (Partitioned Matrix),也称为块矩阵 (Block Matrix),是将一个大矩阵分割成若干个子矩阵的表示方法。这种技术允许将高阶矩阵运算分解为低阶子块运算,从而简化计算过程并揭示矩阵的内部结构。在线性代数、统计学和计量经济学中,分块矩阵是极其

浏览 17 更新 2025-10-25

分块矩阵与回归 (Partitioned Matrix and Regression)

分块矩阵 (Partitioned Matrix),也称为块矩阵 (Block Matrix),是将一个大矩阵分割成若干个子矩阵的表示方法。这种技术允许将高阶矩阵运算分解为低阶子块运算,从而简化计算过程并揭示矩阵的内部结构。在线性代数统计学计量经济学中,分块矩阵是极其重要的分析工具,尤其在多元线性回归分析中扮演核心角色。将分块矩阵的思想应用于回归分析,能极大加深对回归系数的理解,并引出著名的弗里施-瓦格-洛弗尔定理 (Frisch-Waugh-Lovell Theorem,简称 FWL 定理)。该定理由挪威经济学家 Ragnar Frisch、美国经济学家 Frederick V. Waugh 和英国经济学家 Michael C. Lovell 共同发展,是理解「控制变量」和「偏效应」概念的数学基石,也是计量经济学理论推导的核心装置。它与偏回归系数 (Partial Regression Coefficient) 的概念一脉相承——偏回归系数衡量的是一个解释变量在排除了与其他变量的共线性部分后对因变量的净影响。

分块矩阵的基本运算

一个矩阵 AA 可被水平和垂直的直线分割成若干个子矩阵。例如:

A=(A11A12A21A22)A = \begin{pmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{pmatrix}

其中 A11,A12,A21,A22A_{11}, A_{12}, A_{21}, A_{22} 均为矩阵,各子块的维度由分割位置决定。只要各子块维度满足运算要求(即共轭条件),分块矩阵的加法和乘法可像普通矩阵一样按块进行。

对于同样分块的矩阵 AABB,乘积 C=ABC = AB 为:

C=(A11B11+A12B21A11B12+A12B22A21B11+A22B21A21B12+A22B22)C = \begin{pmatrix} A_{11}B_{11} + A_{12}B_{21} & A_{11}B_{12} + A_{12}B_{22} \\ A_{21}B_{11} + A_{22}B_{21} & A_{21}B_{12} + A_{22}B_{22} \end{pmatrix}

此运算成立的前提是,所有涉及矩阵乘法的子块都是共轭的 (conformable),即左侧矩阵的列数等于右侧矩阵的行数。例如,A11A_{11} 的列数必须等于 B11B_{11} 的行数,A12A_{12} 的列数必须等于 B21B_{21} 的行数,以此类推。

分块矩阵的逆是其在线性回归中应用的核心。对于一个可逆方阵 AA,若其对角子块 A11A_{11}A22A_{22} 也是可逆方阵,则逆矩阵可借助舒尔补 (Schur Complement) 简洁表达。子块 A22A_{22}AA 中的舒尔补定义为:

S11=A22A21A111A12S_{11} = A_{22} - A_{21}A_{11}^{-1}A_{12}

类似地,A11A_{11} 的舒尔补为 S22=A11A12A221A21S_{22} = A_{11} - A_{12}A_{22}^{-1}A_{21}。利用舒尔补,A1A^{-1} 可写为:

A^{-1} = \begin{pmatrix}

S22S_{22}^{-1} \& -A11A_{11}^{-1}A12A_{12}S11S_{11}^{-1} \\ -A22A_{22}^{-1}A21A_{21}S22S_{22}^{-1} \& S11S_{11}^{-1}

\end{pmatrix}

这一公式虽然形式复杂,但其各组成部分具有重要的统计学解释——舒尔补结构在后续回归系数的推导中会反复出现。

分块正规方程的推导

考虑标准多元线性回归模型:

y=Xβ+ϵy = X\beta + \epsilon

其中 yyn×1n\times 1 因变量向量,XXn×kn\times k 设计矩阵β\betak×1k\times 1 系数向量,ϵ\epsilonn×1n\times 1 误差项向量。最小二乘法 (OLS) 的估计量 β^\hat{\beta}正规方程 (Normal Equations) 给出:

(XTX)β^=XTyβ^=(XTX)1XTy(X^T X)\hat{\beta} = X^T y \quad \Longrightarrow \quad \hat{\beta} = (X^T X)^{-1}X^T y

现在将自变量分为两组。在许多实际应用中,研究者关心某组变量 X1X_1 的效应,同时需要控制另一组变量 X2X_2 的影响。设:

X=[X1  X2],β=(β1β2)X = [X_1\; X_2], \quad \beta = \begin{pmatrix} \beta_1 \\ \beta_2 \end{pmatrix}

其中 X1X_1n×k1n\times k_1 矩阵,X2X_2n×k2n\times k_2 矩阵,且 k1+k2=kk_1 + k_2 = k。对应地,β1\beta_1k1×1k_1\times 1 向量,β2\beta_2k2×1k_2\times 1 向量。

将分块形式代入正规方程并展开:

(X1TX1X1TX2X2TX1X2TX2)(β^1β^2)=(X1TyX2Ty)\begin{pmatrix} X_1^T X_1 & X_1^T X_2 \\ X_2^T X_1 & X_2^T X_2 \end{pmatrix} \begin{pmatrix} \hat{\beta}_1 \\ \hat{\beta}_2 \end{pmatrix} = \begin{pmatrix} X_1^T y \\ X_2^T y \end{pmatrix}

这构成了两个联立的矩阵方程:

{(X1TX1)β^1+(X1TX2)β^2=X1Ty(X2TX1)β^1+(X2TX2)β^2=X2Ty\begin{cases} (X_1^T X_1)\hat{\beta}_1 + (X_1^T X_2)\hat{\beta}_2 = X_1^T y \\ (X_2^T X_1)\hat{\beta}_1 + (X_2^T X_2)\hat{\beta}_2 = X_2^T y \end{cases}

求解此方程组即可导出 FWL 定理的核心表达式。

弗里施-瓦格-洛弗尔定理的证明

FWL 定理指出,多元回归系数 β^1\hat{\beta}_1 可通过一个两步部分剔除 (partialling out) 过程得到,该过程包含三个步骤:

  1. 将因变量 yyX2X_2 回归,得到残差 yy^*
  2. X1X_1 的每一列对 X2X_2 回归,得到残差矩阵 X1X_1^*
  3. 将残差 yy^* 对残差 X1X_1^* 回归,所得系数即 β^1\hat{\beta}_1

代数证明如下。从第二个方程解出 β^2\hat{\beta}_2

β^2=(X2TX2)1(X2TyX2TX1β^1)\hat{\beta}_2 = (X_2^T X_2)^{-1}(X_2^T y - X_2^T X_1\hat{\beta}_1)

代入第一个方程:

(X1TX1)β^1+(X1TX2)(X2TX2)1(X2TyX2TX1β^1)=X1Ty(X_1^T X_1)\hat{\beta}_1 + (X_1^T X_2)(X_2^T X_2)^{-1}(X_2^T y - X_2^T X_1\hat{\beta}_1) = X_1^T y

整理关于 β^1\hat{\beta}_1 的项。引入投影矩阵 P2=X2(X2TX2)1X2TP_2 = X_2(X_2^T X_2)^{-1}X_2^T零化矩阵 (Annihilator Matrix) M2=IP2M_2 = I - P_2M2M_2 是对称幂等矩阵,满足 M2T=M2M_2^T = M_2M2M2=M2M_2M_2 = M_2。方程化为:

(X1TX1X1TP2X1)β^1=X1TyX1TP2y(X_1^T X_1 - X_1^T P_2 X_1)\hat{\beta}_1 = X_1^T y - X_1^T P_2 y

即:

(X1TM2X1)β^1=X1TM2y(X_1^T M_2 X_1)\hat{\beta}_1 = X_1^T M_2 y

解出:

β^1=(X1TM2X1)1X1TM2y=((X1)TX1)1(X1)Ty\hat{\beta}_1 = (X_1^T M_2 X_1)^{-1}X_1^T M_2 y = ((X_1^*)^T X_1^*)^{-1}(X_1^*)^T y^*

这正是 yy^*X1X_1^* 进行 OLS 回归的系数表达式,定理得证。

理论与计算意义

FWL 定理为控制变量提供了精确的数学解释。在多元回归中,系数 β^j\hat{\beta}_j 衡量的不是该变量与因变量之间的总关联,而是剔除了模型中其他自变量的线性影响之后的偏效应 (Partial Effect)。这在遗漏变量偏误的讨论中具有根本重要性:遗漏变量偏差的大小等于该遗漏变量对 yy 的真实效应乘以目标变量对该遗漏变量的回归系数,这一分解直接来源于 FWL 定理的代数结构。

在计算层面,分块处理可以极大简化运算。在处理面板数据固定效应模型时,每个个体对应一个虚拟变量,导致设计矩阵 XX 可能包含成千上万个虚拟变量列。直接计算 (XTX)1(X^T X)^{-1} 的维度极大,计算成本高昂。通过 FWL 定理将固定效应部分剔除——例如通过组内去均值化 (within transformation) 消除个体效应——仅需对小规模矩阵求逆,大幅提升计算效率。这一技巧是面板数据计量经济学中最重要的计算优化之一。

此外,分块回归还是推导对部分系数进行联合显著性检验(如F检验)的理论基础。通过比较有约束模型和无约束模型的残差平方和,可以构建F统计量,而这些模型的残差平方和可以通过分块矩阵运算简洁地联系起来。具体地,检验 H0:β1=0H_0: \beta_1 = 0 的 F 统计量可写为:

F=(RSSrRSSu)/k1RSSu/(nk)F = \frac{(RSS_r - RSS_u)/k_1}{RSS_u/(n-k)}

其中 RSSuRSS_uRSSrRSS_r 分别为无约束模型和约束模型的残差平方和,这一表达式的推导本质上是分块矩阵运算在假设检验中的自然延伸。

工具变量估计 (IV) 中,两阶段最小二乘法 (2SLS) 的第一阶段回归和第二阶段简化也可以通过 FWL 定理来理解。在时间序列分析的分布滞后模型中,分块矩阵同样被用于简化自回归结构的推导。总之,分块矩阵与回归分析的结合——尤其是 FWL 定理——不仅提供了深刻的理论洞见,也带来了实际的计算便利,是计量经济学方法论中不可或缺的组成部分。