ARTICLE

残差制造矩阵

残差制造矩阵 (Residual Maker Matrix) 残差制造矩阵(Residual Maker Matrix)是计量经济学和线性回归理论中的一个核心代数构造。在经典线性模型 y = X + 中,残差制造矩阵将观测向量 y 直接映射为残差向量 。其定义来源于投影矩阵的对偶:若投影矩阵(Hat Matrix) P = X( X' X)^-1 X' 将

浏览 0 更新 2025-12-12

残差制造矩阵 (Residual Maker Matrix)

残差制造矩阵(Residual Maker Matrix)是计量经济学线性回归理论中的一个核心代数构造。在经典线性模型 y=Xβ+ε \boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} 中,残差制造矩阵将观测向量 y \boldsymbol{y} 直接映射为残差向量 ε^ \hat{\boldsymbol{\varepsilon}} 。其定义来源于投影矩阵的对偶:若投影矩阵(Hat Matrix)P=X(XX)1X \boldsymbol{P} = \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}' y \boldsymbol{y} 投影到 X \boldsymbol{X} 的列空间以生成拟合值 y^=Py \hat{\boldsymbol{y}} = \boldsymbol{P}\boldsymbol{y} ,则残差制造矩阵 M \boldsymbol{M} 正是 IP \boldsymbol{I} - \boldsymbol{P} ——它将 y \boldsymbol{y} 投影到 X \boldsymbol{X} 列空间的正交补上,产出残差 ε^=My \hat{\boldsymbol{\varepsilon}} = \boldsymbol{M}\boldsymbol{y}

定义与基本代数

给定 n×k n \times k 满列秩设计矩阵 X \boldsymbol{X} ,残差制造矩阵为:

MInX(XX)1X\boldsymbol{M} \equiv \boldsymbol{I}_n - \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'

其中 In \boldsymbol{I}_n n n 阶单位矩阵。M \boldsymbol{M} n×n n \times n 的方阵,其核心性质在于它"消灭" X \boldsymbol{X} 的列:MX=0 \boldsymbol{M}\boldsymbol{X} = \boldsymbol{0} 。这意味着 M \boldsymbol{M} X \boldsymbol{X} 的列空间中的任何向量映射为零向量,仅保留与 X \boldsymbol{X} 正交的分量。

残差本身的代数推导最为直观:

ε^=yy^=yXβ^=yX(XX)1Xy=(IP)y=My\hat{\boldsymbol{\varepsilon}} = \boldsymbol{y} - \hat{\boldsymbol{y}} = \boldsymbol{y} - \boldsymbol{X}\hat{\boldsymbol{\beta}} = \boldsymbol{y} - \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y} = (\boldsymbol{I} - \boldsymbol{P})\boldsymbol{y} = \boldsymbol{M}\boldsymbol{y}

同样,若将真实扰动向量 ε \boldsymbol{\varepsilon} 代入,有 Mε=M(yXβ)=MyMXβ=My \boldsymbol{M}\boldsymbol{\varepsilon} = \boldsymbol{M}(\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta}) = \boldsymbol{M}\boldsymbol{y} - \boldsymbol{M}\boldsymbol{X}\boldsymbol{\beta} = \boldsymbol{M}\boldsymbol{y} ,因为 MX=0 \boldsymbol{M}\boldsymbol{X} = \boldsymbol{0} 。这确立了残差与真实扰动之间的基本关系:ε^=Mε \hat{\boldsymbol{\varepsilon}} = \boldsymbol{M}\boldsymbol{\varepsilon}

核心性质

残差制造矩阵具备以下数学性质,这些性质在计量推断中反复使用。

第一,对称性M=M \boldsymbol{M}' = \boldsymbol{M} 。这是因为它由单位矩阵与对称投影矩阵之差构成。

第二,幂等性(Idempotent):M2=M \boldsymbol{M}^2 = \boldsymbol{M} 。幂等性使 M \boldsymbol{M} 成为正交投影算子——连续两次投影等价于一次投影。代数验证如下:

M2=(IP)(IP)=I2P+P2=I2P+P=IP=M\boldsymbol{M}^2 = (\boldsymbol{I} - \boldsymbol{P})(\boldsymbol{I} - \boldsymbol{P}) = \boldsymbol{I} - 2\boldsymbol{P} + \boldsymbol{P}^2 = \boldsymbol{I} - 2\boldsymbol{P} + \boldsymbol{P} = \boldsymbol{I} - \boldsymbol{P} = \boldsymbol{M}

其中利用了 P2=P \boldsymbol{P}^2 = \boldsymbol{P}

第三,X \boldsymbol{X} 正交MX=0 \boldsymbol{M}\boldsymbol{X} = \boldsymbol{0} XM=0 \boldsymbol{X}'\boldsymbol{M} = \boldsymbol{0} 。这是残差与回归元正交的代数根源。

第四,迹与秩:幂等矩阵的迹等于其秩,且 tr(M)=tr(In)tr(P)=ntr(X(XX)1X)=ntr((XX)1XX)=ntr(Ik)=nk \operatorname{tr}(\boldsymbol{M}) = \operatorname{tr}(\boldsymbol{I}_n) - \operatorname{tr}(\boldsymbol{P}) = n - \operatorname{tr}(\boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}') = n - \operatorname{tr}((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{X}) = n - \operatorname{tr}(\boldsymbol{I}_k) = n - k 。因此 rank(M)=nk \operatorname{rank}(\boldsymbol{M}) = n - k ,这恰好是残差的自由度

第五,残差平方和ε^ε^=yMy=εMε \hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}} = \boldsymbol{y}'\boldsymbol{M}\boldsymbol{y} = \boldsymbol{\varepsilon}'\boldsymbol{M}\boldsymbol{\varepsilon} σ2 \sigma^2 的无偏估计量正是基于此:s2=ε^ε^nk s^2 = \frac{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}}{n - k}

统计意义:从残差到方差的推断

残差制造矩阵在OLS估计量的有限样本性质中扮演关键角色。在高斯-马尔可夫假设下,ε(0,σ2I) \boldsymbol{\varepsilon} \sim (\boldsymbol{0}, \sigma^2\boldsymbol{I}) ,残差的协方差矩阵为:

Var(ε^)=Var(Mε)=MVar(ε)M=M(σ2I)M=σ2M\operatorname{Var}(\hat{\boldsymbol{\varepsilon}}) = \operatorname{Var}(\boldsymbol{M}\boldsymbol{\varepsilon}) = \boldsymbol{M}\operatorname{Var}(\boldsymbol{\varepsilon})\boldsymbol{M}' = \boldsymbol{M}(\sigma^2\boldsymbol{I})\boldsymbol{M} = \sigma^2\boldsymbol{M}

此处利用了 M \boldsymbol{M} 的对称性与幂等性。这一结果揭示了残差不是球形的:尽管真实扰动 ε \boldsymbol{\varepsilon} 具有同方差与无自相关性,估计残差 ε^ \hat{\boldsymbol{\varepsilon}} 却因投影而带有相关结构——单个残差的方差为 σ2(1hii) \sigma^2(1 - h_{ii}) ,其中 hii h_{ii} 为投影矩阵的第 i i 个对角线元素(即杠杆值)。这使得学生化残差在诊断中不可替代。

与投影矩阵的对偶关系

P \boldsymbol{P} M \boldsymbol{M} 构成 Rn \mathbb{R}^n 的一对互补正交投影:P+M=I \boldsymbol{P} + \boldsymbol{M} = \boldsymbol{I} ,且 PM=MP=0 \boldsymbol{P}\boldsymbol{M} = \boldsymbol{M}\boldsymbol{P} = \boldsymbol{0} 。因此任何 n n 维向量 y \boldsymbol{y} 可唯一分解为两个正交分量的和:

y=Py+My=y^+ε^\boldsymbol{y} = \boldsymbol{P}\boldsymbol{y} + \boldsymbol{M}\boldsymbol{y} = \hat{\boldsymbol{y}} + \hat{\boldsymbol{\varepsilon}}

其中 y^ε^=yPMy=0 \hat{\boldsymbol{y}}'\hat{\boldsymbol{\varepsilon}} = \boldsymbol{y}'\boldsymbol{P}\boldsymbol{M}\boldsymbol{y} = 0 。这正是方差分解 SST=SSE+SSR \text{SST} = \text{SSE} + \text{SSR} 的代数基础,也是 R2 R^2 统计量的构造来源。

在模型诊断与计量检验中的应用

残差制造矩阵不仅是代数工具,在应用计量中也直接进入多种检验统计量的构造。

残差异方差检验Breusch-Pagan 检验White 检验均以残差 ε^i \hat{\varepsilon}_i 或其平方作为被解释变量进行辅助回归,而这些检验的有限样本性质可通过 M \boldsymbol{M} 的性质加以分析。

影响点诊断:杠杆值 hii h_{ii} P \boldsymbol{P} 的对角元)和 M \boldsymbol{M} 的对角元 mii=1hii m_{ii} = 1 - h_{ii} 联合决定了单个观测对回归结果的影响程度。Cook 距离本质上度量了删除第 i i 个观测后参数向量的变化,其代数形式直接依赖于 hii h_{ii} ε^i \hat{\varepsilon}_i

序列相关检验Durbin-Watson 统计量可写为 ε^Aε^ε^ε^ \frac{\hat{\boldsymbol{\varepsilon}}'\boldsymbol{A}\hat{\boldsymbol{\varepsilon}}}{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}} ,其中 A \boldsymbol{A} 为一阶差分矩阵。由于 ε^=My=Mε \hat{\boldsymbol{\varepsilon}} = \boldsymbol{M}\boldsymbol{y} = \boldsymbol{M}\boldsymbol{\varepsilon} ,该统计量的零分布依赖于 MAM \boldsymbol{M}\boldsymbol{A}\boldsymbol{M} 的谱性质。

扩展:广义最小二乘中的对应物

广义最小二乘(GLS)框架下,若 Var(ε)=Ω \operatorname{Var}(\boldsymbol{\varepsilon}) = \boldsymbol{\Omega} (非标量协方差矩阵),投影矩阵推广为 PΩ=X(XΩ1X)1XΩ1 \boldsymbol{P}_{\boldsymbol{\Omega}} = \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{\Omega}^{-1}\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{\Omega}^{-1} ,残差制造矩阵也随之变为 MΩ=IPΩ \boldsymbol{M}_{\boldsymbol{\Omega}} = \boldsymbol{I} - \boldsymbol{P}_{\boldsymbol{\Omega}} 。此时 MΩ \boldsymbol{M}_{\boldsymbol{\Omega}} 不再对称(除非 Ω=σ2I \boldsymbol{\Omega} = \sigma^2\boldsymbol{I} ),但依然满足幂等性与 MΩX=0 \boldsymbol{M}_{\boldsymbol{\Omega}}\boldsymbol{X} = \boldsymbol{0} ,使 GLS 残差具备与 OLS 残差平行的代数结构。

残差制造矩阵是连接线性代数与统计推断的桥梁。理解 M \boldsymbol{M} 是对 y \boldsymbol{y} 中"数据说了什么"与"模型说了什么"之间差异的精确量化——它将观测值中与解释变量共线性的部分剥离,只留下模型无法解释的净残差。这一看似简单的代数构造,支撑着从 t t 检验到 F F 检验、从 R2 R^2 到信息准则的几乎全部回归诊断体系。