ARTICLE

残差生成矩阵

残差生成矩阵 (Residual Maker Matrix) 残差生成矩阵在计量经济学和统计学中也被称为湮灭矩阵 (Annihilator Matrix) 或投影正交补矩阵 (Orthogonal Projection Complement Matrix),是一个至关重要的矩阵。它的核心功能是:当它与因变量观测向量相乘时,可以直接得到普通最小二乘法 (Ord

浏览 63 更新 2025-10-14

残差生成矩阵 (Residual Maker Matrix)

残差生成矩阵计量经济学统计学中也被称为湮灭矩阵 (Annihilator Matrix) 或投影正交补矩阵 (Orthogonal Projection Complement Matrix),是一个至关重要的矩阵。它的核心功能是:当它与因变量观测向量相乘时,可以直接得到普通最小二乘法 (Ordinary Least Squares, OLS) 回归的残差向量。它通常用大写字母 MM 表示。

定义与推导

在标准的线性回归模型中,我们有:

y=Xβ+uy = X\beta + u

其中 yyn×1n \times 1 的因变量观测向量,XXn×kn \times k 的自变量观测矩阵(通常包含常数项列),β\betak×1k \times 1 的未知参数向量,uun×1n \times 1 的误差项向量。

根据普通最小二乘法的原理,参数估计量 β^\hat{\beta} 为:

β^=(XX)1Xy\hat{\beta} = (X'X)^{-1}X'y

其中 (XX)1(X'X)^{-1} 是矩阵 XXX'X逆矩阵。由此可计算拟合值向量 y^\hat{y}

y^=Xβ^=X(XX)1Xy\hat{y} = X\hat{\beta} = X(X'X)^{-1}X'y

定义投影矩阵 P=X(XX)1XP = X(X'X)^{-1}X',也称帽子矩阵 (Hat Matrix),因为它将 yy 变为 y^\hat{y}:即 y^=Py\hat{y} = Py

残差向量 ee(部分文献记为 u^\hat{u})定义为观测值与拟合值之差:

e=yy^=yPy=(IP)ye = y - \hat{y} = y - Py = (I - P)y

其中 IIn×nn \times n单位矩阵。矩阵 M=IPM = I - P 即为残差生成矩阵,完整表达式为:

M=IP=IX(XX)1XM = I - P = I - X(X'X)^{-1}X'

该公式明确显示:MM 通过从原始观测向量 yy 中"移除"由自变量 XX 解释的部分(即投影 PyPy)来生成残差 ee。换言之,MM 的作用是从原始数据中剥离所有可由解释变量线性表达的系统性信息,仅保留无法被模型解释的剩余部分,这正是"残差"一词的代数本质。

核心性质

残差生成矩阵 MM 具有一系列优美且重要的数学性质,是理论推导和几何解释的基石。

对称性 (Symmetry)

MM 是对称矩阵,即 M=MM' = M。由 M=(IP)=IPM' = (I - P)' = I' - P',单位矩阵对称 (I=II' = I),投影矩阵 PP 也对称:P=(X(XX)1X)=X(XX)1X=PP' = (X(X'X)^{-1}X')' = X(X'X)^{-1}X' = P,故 M=IP=MM' = I - P = M

幂等性 (Idempotence)

MM 是幂等矩阵,即 M2=MM^2 = M。推导如下:

M2=(IP)(IP)=IPP+P2M^2 = (I - P)(I - P) = I - P - P + P^2

投影矩阵 PP 自身幂等 (P2=PP^2 = P),因此 M2=I2P+P=IP=MM^2 = I - 2P + P = I - P = M。直观含义:对一个已经是残差的向量再"残差化",得到其自身——因为残差向量 e=Mye = My 已与 XX 的列空间正交,在该空间上的投影为零。

湮灭性质 (Annihilation Property)

MM 与自变量矩阵 XX 的乘积为零矩阵:MX=0MX = \mathbf{0}。证明:

MX=(IP)X=XPX=XX(XX)1XX=XX=0MX = (I - P)X = X - PX = X - X(X'X)^{-1}X'X = X - X = \mathbf{0}

这正是"湮灭矩阵"名称的由来——它"湮灭"所有包含在自变量 XX 中的信息。这也是 OLS 基本假设"残差与自变量不相关"的矩阵代数体现:Xe=XMy=(MX)y=(MX)y=0X'e = X'My = (M'X)'y = (MX)'y = \mathbf{0}

秩与迹 (Rank and Trace)

MM均为 nkn - k。迹的推导:

tr(M)=tr(InP)=tr(In)tr(P)=nk\mathrm{tr}(M) = \mathrm{tr}(I_n - P) = \mathrm{tr}(I_n) - \mathrm{tr}(P) = n - k

其中 tr(P)=tr(X(XX)1X)=tr(XX(XX)1)=tr(Ik)=k\mathrm{tr}(P) = \mathrm{tr}(X(X'X)^{-1}X') = \mathrm{tr}(X'X(X'X)^{-1}) = \mathrm{tr}(I_k) = k。对于对称幂等矩阵,秩等于迹,故 rank(M)=nk\mathrm{rank}(M) = n - k。该值恰好是 OLS 回归中残差的自由度 (degrees of freedom)。自由度的直观含义是:尽管有 nn 个观测值用于计算残差,但其中有 kk 个"自由度"已被用于估计回归系数,因此残差中仅剩下 nkn - k 个独立的信息片段。这也是为什么残差方差的无偏估计量为 σ^2=ee/(nk)\hat{\sigma}^2 = e'e / (n - k) 而非 ee/ne'e / n

几何解释

残差生成矩阵的几何意义为正交投影。这一视角将抽象的矩阵代数操作转化为直观的几何图像。在 nn 维欧几里得空间中:

  • 因变量向量 yy 是空间中的一个点。
  • 自变量矩阵 XXkk 个列向量张成一个 kk 维子空间,称为 XX列空间,记作 span(X)\mathrm{span}(X)
  • 投影矩阵 PPyy 正交投影span(X)\mathrm{span}(X) 上,得到拟合值 y^\hat{y},它是在该子空间中与 yy "最接近"的向量。
  • 残差生成矩阵 MM 执行相反操作:将 yy 正交投影到与 span(X)\mathrm{span}(X) 正交的子空间(即正交补,Orthogonal Complement),得到残差向量 ee
  • 根据定义,e=yy^e = y - \hat{y},且 eey^\hat{y} 正交ey^=0e'\hat{y} = 0)。这形成了毕达哥拉斯定理在回归分析中的体现: \[ \|y\|^2 = \|\hat{y}\|^2 + \|e\|^2 \] 对应于:总平方和 (TSS) = 解释平方和 (ESS) + 残差平方和 (RSS)。

在计量经济学中的应用

残差与方差的计算

直接计算残差:e=Mye = My。在经典假设下,假设真实误差项 uu 满足 Var(uX)=σ2In\mathrm{Var}(u \mid X) = \sigma^2 I_n,则残差向量 ee协方差矩阵为:

Var(eX)=Var(MuX)=MVar(uX)M=M(σ2In)M=σ2M\mathrm{Var}(e \mid X) = \mathrm{Var}(Mu \mid X) = M \, \mathrm{Var}(u \mid X) \, M' = M(\sigma^2 I_n)M = \sigma^2 M

该结果揭示了一个重要事实:即使原始误差项是同方差且无自相关的,OLS 残差通常既不是同方差的(σ2M\sigma^2 M 的对角线元素不全相等),也不是自相关的(非对角线元素不全为零)。

Frisch--Waugh--Lovell (FWL) 定理

MM 是理解和证明FWL定理的核心工具。在回归 y=X1β1+X2β2+uy = X_1\beta_1 + X_2\beta_2 + u 中,系数向量 β2\beta_2 的估计值 β^2\hat{\beta}_2 可通过两步法获得:

  1. 分别将 yyX2X_2X1X_1 回归取残差,得到 M1yM_1yM1X2M_1X_2,其中 M1=IX1(X1X1)1X1M_1 = I - X_1(X_1'X_1)^{-1}X_1'
  2. M1yM_1yM1X2M_1X_2 回归。

该过程揭示了多元回归系数的"偏效应"本质——即控制了其他变量 (X1X_1) 影响后的净效应。从几何角度看,M1M_1 先将所有变量"净化"(移除与 X1X_1 线性相关的成分),然后在净化后的空间中考察 yyX2X_2 的关系,从而剥离出 X2X_2yy 的独立贡献。这种"先净化再回归"的逻辑是理解多元回归中系数含义的关键直觉。

设定检验 (Specification Tests)

许多计量经济学的诊断检验——如检验异方差性的 White 检验或 Breusch--Pagan 检验,以及检验序列相关的 Durbin--Watson 检验——都构建在对 OLS 残差 ee 的分析之上。MM 的性质是推导这些检验统计量分布的基础。

总结

残差生成矩阵 M=IX(XX)1XM = I - X(X'X)^{-1}X' 是线性回归理论中一个看似简单却极为深刻的构造。它的对称性和幂等性使其成为一个正交投影算子,将观测向量 yy 投射到自变量列空间的正交补上,生成残差。其秩 nkn - k 精确刻画了残差的自由度,而湮灭性质 (MX=0MX = \mathbf{0}) 则从矩阵代数层面保证了 OLS 正交性条件的成立。

从更深层次看,MM 与投影矩阵 PP 构成了对 nn 维空间的完备正交分解:I=P+MI = P + M,且 PM=0PM = \mathbf{0}。这意味着任何一个 nn 维向量都可以被唯一地分解为两个正交分量——一个落在 XX 的列空间中(由 PP 给出),另一个落在其正交补中(由 MM 给出)。这种分解是理解线性模型参数估计和假设检验的统一框架。无论是 FWL 定理的推导、方差协方差的分解,还是各种设定检验的统计量构造,MM 都是不可或缺的代数工具。理解这一矩阵,就掌握了从几何和代数双重角度透视线性回归的钥匙。