知经 KNOWECON · 卓越的经济金融统计数学学习平台

分块矩阵与回归

# 分块矩阵与回归 (Partitioned Matrix and Regression)

分块矩阵 (Partitioned Matrix),也称为 块矩阵 (Block Matrix),是一种将一个大矩阵分割成若干个较小的子矩阵(称为“块”或“子块”)的表示方法。这种技术在{{{线性代数}}}、{{{统计学}}}和{{{计量经济学}}}中是一个极其强大的工具,它能够简化矩阵运算,揭示矩阵的深层结构,并在理论推导中提供优雅的路径,特别是在{{{多元线性回归}}}分析中。

将分块矩阵的思想应用于回归分析,可以极大地加深我们对回归系数的理解,并引出著名的{{{弗里施-瓦格-洛弗尔定理}}} (Frisch-Waugh-Lovell Theorem),该定理是理解“控制变量”和“偏效应”等概念的数学基石。

## 分块矩阵的定义与运算

一个矩阵 $A$ 可以被水平和垂直的直线分割成若干个子矩阵。例如,一个矩阵 $A$ 可以被分块为: $$ A = \begin{pmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{pmatrix} $$ 其中 $A_{11}, A_{12}, A_{21}, A_{22}$ 都是矩阵。只要各子块的维度满足运算要求,分块矩阵的加法和乘法就可以像普通矩阵一样按块进行。

* 分块矩阵乘法: 假设有同样分块的矩阵 $A$ 和 $B$: $$ A = \begin{pmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{pmatrix}, \quad B = \begin{pmatrix} B_{11} & B_{12} \\ B_{21} & B_{22} \end{pmatrix} $$ 若要计算 $C = AB$,其结果为: $$ C = \begin{pmatrix} A_{11}B_{11} + A_{12}B_{21} & A_{11}B_{12} + A_{12}B_{22} \\ A_{21}B_{11} + A_{22}B_{21} & A_{21}B_{12} + A_{22}B_{22} \end{pmatrix} $$ 此运算成立的前提是,所有涉及矩阵乘法的子块都是 {{{共轭}}} 的(conformable),即左侧矩阵的列数等于右侧矩阵的行数。

## 分块矩阵的逆

分块矩阵的逆是其在回归分析中应用的核心。对于一个可逆的方阵 $A$,如果其对角线上的子块 $A_{11}$ 和 $A_{22}$ 也是方阵且可逆,我们可以求解其逆矩阵。特别地,对于上述的 $A$,其逆矩阵 $A^{-1}$ 可以表示为: $$ A^{-1} = \begin{pmatrix} (A_{11} - A_{12}A_{22}^{-1}A_{21})^{-1} & -A_{11}^{-1}A_{12}(A_{22} - A_{21}A_{11}^{-1}A_{12})^{-1} \\ -A_{22}^{-1}A_{21}(A_{11} - A_{12}A_{22}^{-1}A_{21})^{-1} & (A_{22} - A_{21}A_{11}^{-1}A_{12})^{-1} \end{pmatrix} $$ 这个公式虽然复杂,但其组成部分具有重要的统计学意义。其中,像 $(A_{22} - A_{21}A_{11}^{-1}A_{12})$ 这样的表达式被称为{{{舒尔补}}} (Schur Complement)。例如,$A_{11}$ 在 $A$ 中的舒尔补是 $S_{11} = A_{22} - A_{21}A_{11}^{-1}A_{12}$。利用舒尔补,上述逆矩阵可以写得更简洁。

## 在线性回归模型中的应用

考虑一个标准的{{{多元线性回归模型}}}: $$ y = X\beta + \epsilon $$ 其中,$y$ 是 $n \times 1$ 的因变量向量,$X$ 是 $n \times k$ 的{{{设计矩阵}}}(包含 $k$ 个自变量),$\beta$ 是 $k \times 1$ 的系数向量,$\epsilon$ 是 $n \times 1$ 的误差项向量。{{{普通最小二乘法}}} (OLS) 估计量 $\hat{\beta}$ 由{{{正规方程}}} (Normal Equations) 给出: $$ (X^T X)\hat{\beta} = X^T y \quad \implies \quad \hat{\beta} = (X^T X)^{-1} X^T y $$

现在,我们将自变量(即 $X$ 的列)分成两组。例如,我们可能关心其中一组变量 $X_1$ 的效应,同时控制另一组变量 $X_2$ 的影响。于是我们将 $X$ 和 $\beta$ 分块: $$ X = \begin{bmatrix} X_1 & X_2 \end{bmatrix}, \quad \beta = \begin{pmatrix} \beta_1 \\ \beta_2 \end{pmatrix} $$ 其中 $X_1$ 是 $n \times k_1$ 矩阵,$X_2$ 是 $n \times k_2$ 矩阵,且 $k_1+k_2=k$。相应地,$\beta_1$ 是 $k_1 \times 1$ 向量,$\beta_2$ 是 $k_2 \times 1$ 向量。

将分块形式代入正规方程: $$ \begin{pmatrix} X_1^T \\ X_2^T \end{pmatrix} \begin{bmatrix} X_1 & X_2 \end{bmatrix} \begin{pmatrix} \hat{\beta}_1 \\ \hat{\beta}_2 \end{pmatrix} = \begin{pmatrix} X_1^T \\ X_2^T \end{pmatrix} y $$ 展开后得到一个分块的方程组: $$ \begin{pmatrix} X_1^T X_1 & X_1^T X_2 \\ X_2^T X_1 & X_2^T X_2 \end{pmatrix} \begin{pmatrix} \hat{\beta}_1 \\ \hat{\beta}_2 \end{pmatrix} = \begin{pmatrix} X_1^T y \\ X_2^T y \end{pmatrix} $$ 这可以看作是两个联立的矩阵方程: 1. $(X_1^T X_1)\hat{\beta}_1 + (X_1^T X_2)\hat{\beta}_2 = X_1^T y$ 2. $(X_2^T X_1)\hat{\beta}_1 + (X_2^T X_2)\hat{\beta}_2 = X_2^T y$

通过求解这个方程组,我们可以得到 $\hat{\beta}_1$ 和 $\hat{\beta}_2$ 的表达式,这正是{{{弗里施-瓦格-洛弗尔定理}}}的核心内容。

## 弗里施-瓦格-洛弗尔定理 (Frisch-Waugh-Lovell Theorem)

该定理揭示了多元回归中单个(或一组)系数的深刻含义。它指出,多元回归模型 $y = X_1\beta_1 + X_2\beta_2 + \epsilon$ 中的系数估计值 $\hat{\beta}_1$,可以通过一个两步的“部分剔除”(partialling out) 过程得到。

定理内容: 多元回归的系数向量估计值 $\hat{\beta}_1$ 与以下两步回归得到的系数完全相同: 1. 剔除 $X_2$ 对 $X_1$ 的影响:将 $X_1$ 的每一列对 $X_2$ 的所有列进行回归,得到一组残差,记为 $X_1^*$。 2. 剔除 $X_2$ 对 $y$ 的影响:将因变量 $y$ 对 $X_2$ 的所有列进行回归,得到残差,记为 $y^*$。 3. 最后回归:将残差 $y^*$ 对残差 $X_1^*$ 进行回归。这次回归得到的系数就是原多元回归模型中的 $\hat{\beta}_1$。

代数证明: 我们可以利用分块矩阵的正规方程来证明。从第二个方程中解出 $\hat{\beta}_2$: $$ \hat{\beta}_2 = (X_2^T X_2)^{-1}(X_2^T y - X_2^T X_1 \hat{\beta}_1) $$ 将此表达式代入第一个方程: $$ (X_1^T X_1)\hat{\beta}_1 + (X_1^T X_2)(X_2^T X_2)^{-1}(X_2^T y - X_2^T X_1 \hat{\beta}_1) = X_1^T y $$ 整理关于 $\hat{\beta}_1$ 的项: $$ (X_1^T X_1 - X_1^T X_2(X_2^T X_2)^{-1}X_2^T X_1)\hat{\beta}_1 = X_1^T y - X_1^T X_2(X_2^T X_2)^{-1}X_2^T y $$ 引入{{{投影矩阵}}} $P_2 = X_2(X_2^T X_2)^{-1}X_2^T$ 和其对应的{{{零化矩阵}}} (Annihilator Matrix) $M_2 = I - P_2$。$M_2$ 是一个对称幂等矩阵($M_2^T=M_2$ 且 $M_2M_2=M_2$)。 方程左边可以写作: $$ (X_1^T X_1 - X_1^T P_2 X_1)\hat{\beta}_1 = X_1^T(I-P_2)X_1\hat{\beta}_1 = X_1^T M_2 X_1 \hat{\beta}_1 $$ 方程右边可以写作: $$ X_1^T(I-P_2)y = X_1^T M_2 y $$ 于是,我们得到: $$ (X_1^T M_2 X_1)\hat{\beta}_1 = X_1^T M_2 y $$ 解出 $\hat{\beta}_1$: $$ \hat{\beta}_1 = (X_1^T M_2 X_1)^{-1} X_1^T M_2 y $$ 这里的 $M_2 X_1$ 正是 $X_1$ 对 $X_2$ 回归的残差矩阵 ($X_1^*$),$M_2 y$ 正是 $y$ 对 $X_2$ 回归的残差向量 ($y^*$)。因此,上式可以写成: $$ \hat{\beta}_1 = ((X_1^*)^T X_1^*)^{-1} (X_1^*)^T y^* $$ 这恰好是 $y^*$ 对 $X_1^*$ 进行 OLS 回归的系数估计量表达式,从而证明了该定理。

## 理论与计算意义

1. 理论解释:FWL定理为“控制变量”提供了清晰的数学解释。一个自变量的系数 $\hat{\beta}_j$衡量的不是该变量与因变量之间的总关联,而是剔除了模型中其他所有自变量的线性影响之后,该变量对因变量的 偏效应 (Partial Effect)。这对于避免{{{遗漏变量偏误}}}的讨论至关重要。

2. 计算优势:在某些情况下,分块处理可以极大简化计算。例如,在处理{{{面板数据}}}的{{{固定效应模型}}}时,每个个体都有一个虚拟变量,导致设计矩阵 $X$ 非常巨大。直接求 $(X^T X)^{-1}$ 计算成本极高。但通过分块回归的思想,可以将固定效应(即大量的虚拟变量)的影响通过“部分剔除”(例如,通过去均值化)来处理,从而仅需对一个远小于 $X^T X$ 的矩阵求逆,大大提高了计算效率。

3. {{{假设检验}}}:分块回归是推导对部分系数进行{{{联合显著性检验}}}(如F检验)的理论基础。通过比较有约束和无约束模型的{{{残差平方和}}},我们可以构建{{{F统计量}}},而这些模型的残差平方和可以通过分块矩阵的运算简洁地联系起来。