残差制造矩阵 (Residual Maker Matrix)
残差制造矩阵 (Residual Maker Matrix)是计量经济学 和线性回归 理论中的一个核心代数构造。在经典线性模型 y = X β + ε \boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} y = X β + ε 中,残差制造矩阵将观测向量 y \boldsymbol{y} y 直接映射为残差向量 ε ^ \hat{\boldsymbol{\varepsilon}} ε ^ 。其定义来源于投影矩阵 的对偶:若投影矩阵(Hat Matrix)P = X ( X ′ X ) − 1 X ′ \boldsymbol{P} = \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}' P = X ( X ′ X ) − 1 X ′ 将 y \boldsymbol{y} y 投影到 X \boldsymbol{X} X 的列空间以生成拟合值 y ^ = P y \hat{\boldsymbol{y}} = \boldsymbol{P}\boldsymbol{y} y ^ = P y ,则残差制造矩阵 M \boldsymbol{M} M 正是 I − P \boldsymbol{I} - \boldsymbol{P} I − P ——它将 y \boldsymbol{y} y 投影到 X \boldsymbol{X} X 列空间的正交补 上,产出残差 ε ^ = M y \hat{\boldsymbol{\varepsilon}} = \boldsymbol{M}\boldsymbol{y} ε ^ = M y 。
定义与基本代数
给定 n × k n \times k n × k 满列秩设计矩阵 X \boldsymbol{X} X ,残差制造矩阵为:
M ≡ I n − X ( X ′ X ) − 1 X ′ \boldsymbol{M} \equiv \boldsymbol{I}_n - \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}' M ≡ I n − X ( X ′ X ) − 1 X ′
其中 I n \boldsymbol{I}_n I n 为 n n n 阶单位矩阵。M \boldsymbol{M} M 是 n × n n \times n n × n 的方阵,其核心性质在于它"消灭" X \boldsymbol{X} X 的列:M X = 0 \boldsymbol{M}\boldsymbol{X} = \boldsymbol{0} M X = 0 。这意味着 M \boldsymbol{M} M 将 X \boldsymbol{X} X 的列空间中的任何向量映射为零向量,仅保留与 X \boldsymbol{X} X 正交的分量。
残差本身的代数推导最为直观:
ε ^ = y − y ^ = y − X β ^ = y − X ( X ′ X ) − 1 X ′ y = ( I − P ) y = M y \hat{\boldsymbol{\varepsilon}} = \boldsymbol{y} - \hat{\boldsymbol{y}} = \boldsymbol{y} - \boldsymbol{X}\hat{\boldsymbol{\beta}} = \boldsymbol{y} - \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y} = (\boldsymbol{I} - \boldsymbol{P})\boldsymbol{y} = \boldsymbol{M}\boldsymbol{y} ε ^ = y − y ^ = y − X β ^ = y − X ( X ′ X ) − 1 X ′ y = ( I − P ) y = M y
同样,若将真实扰动向量 ε \boldsymbol{\varepsilon} ε 代入,有 M ε = M ( y − X β ) = M y − M X β = M y \boldsymbol{M}\boldsymbol{\varepsilon} = \boldsymbol{M}(\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta}) = \boldsymbol{M}\boldsymbol{y} - \boldsymbol{M}\boldsymbol{X}\boldsymbol{\beta} = \boldsymbol{M}\boldsymbol{y} M ε = M ( y − X β ) = M y − M X β = M y ,因为 M X = 0 \boldsymbol{M}\boldsymbol{X} = \boldsymbol{0} M X = 0 。这确立了残差与真实扰动之间的基本关系:ε ^ = M ε \hat{\boldsymbol{\varepsilon}} = \boldsymbol{M}\boldsymbol{\varepsilon} ε ^ = M ε 。
核心性质
残差制造矩阵具备以下数学性质,这些性质在计量推断中反复使用。
第一,对称性 :M ′ = M \boldsymbol{M}' = \boldsymbol{M} M ′ = M 。这是因为它由单位矩阵与对称投影矩阵之差构成。
第二,幂等性 (Idempotent):M 2 = M \boldsymbol{M}^2 = \boldsymbol{M} M 2 = M 。幂等性使 M \boldsymbol{M} M 成为正交投影算子——连续两次投影等价于一次投影。代数验证如下:
M 2 = ( I − P ) ( I − P ) = I − 2 P + P 2 = I − 2 P + P = I − P = M \boldsymbol{M}^2 = (\boldsymbol{I} - \boldsymbol{P})(\boldsymbol{I} - \boldsymbol{P}) = \boldsymbol{I} - 2\boldsymbol{P} + \boldsymbol{P}^2 = \boldsymbol{I} - 2\boldsymbol{P} + \boldsymbol{P} = \boldsymbol{I} - \boldsymbol{P} = \boldsymbol{M} M 2 = ( I − P ) ( I − P ) = I − 2 P + P 2 = I − 2 P + P = I − P = M
其中利用了 P 2 = P \boldsymbol{P}^2 = \boldsymbol{P} P 2 = P 。
第三,与 X \boldsymbol{X} X 正交 :M X = 0 \boldsymbol{M}\boldsymbol{X} = \boldsymbol{0} M X = 0 且 X ′ M = 0 \boldsymbol{X}'\boldsymbol{M} = \boldsymbol{0} X ′ M = 0 。这是残差与回归元正交的代数根源。
第四,迹与秩 :幂等矩阵的迹等于其秩,且 tr ( M ) = tr ( I n ) − tr ( P ) = n − tr ( X ( X ′ X ) − 1 X ′ ) = n − tr ( ( X ′ X ) − 1 X ′ X ) = n − tr ( I k ) = n − k \operatorname{tr}(\boldsymbol{M}) = \operatorname{tr}(\boldsymbol{I}_n) - \operatorname{tr}(\boldsymbol{P}) = n - \operatorname{tr}(\boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}') = n - \operatorname{tr}((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{X}) = n - \operatorname{tr}(\boldsymbol{I}_k) = n - k tr ( M ) = tr ( I n ) − tr ( P ) = n − tr ( X ( X ′ X ) − 1 X ′ ) = n − tr (( X ′ X ) − 1 X ′ X ) = n − tr ( I k ) = n − k 。因此 rank ( M ) = n − k \operatorname{rank}(\boldsymbol{M}) = n - k rank ( M ) = n − k ,这恰好是残差的自由度 。
第五,残差平方和 :ε ^ ′ ε ^ = y ′ M y = ε ′ M ε \hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}} = \boldsymbol{y}'\boldsymbol{M}\boldsymbol{y} = \boldsymbol{\varepsilon}'\boldsymbol{M}\boldsymbol{\varepsilon} ε ^ ′ ε ^ = y ′ M y = ε ′ M ε 。σ 2 \sigma^2 σ 2 的无偏估计量正是基于此:s 2 = ε ^ ′ ε ^ n − k s^2 = \frac{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}}{n - k} s 2 = n − k ε ^ ′ ε ^ 。
统计意义:从残差到方差的推断
残差制造矩阵在OLS 估计量的有限样本性质中扮演关键角色。在高斯-马尔可夫假设 下,ε ∼ ( 0 , σ 2 I ) \boldsymbol{\varepsilon} \sim (\boldsymbol{0}, \sigma^2\boldsymbol{I}) ε ∼ ( 0 , σ 2 I ) ,残差的协方差矩阵为:
Var ( ε ^ ) = Var ( M ε ) = M Var ( ε ) M ′ = M ( σ 2 I ) M = σ 2 M \operatorname{Var}(\hat{\boldsymbol{\varepsilon}}) = \operatorname{Var}(\boldsymbol{M}\boldsymbol{\varepsilon}) = \boldsymbol{M}\operatorname{Var}(\boldsymbol{\varepsilon})\boldsymbol{M}' = \boldsymbol{M}(\sigma^2\boldsymbol{I})\boldsymbol{M} = \sigma^2\boldsymbol{M} Var ( ε ^ ) = Var ( M ε ) = M Var ( ε ) M ′ = M ( σ 2 I ) M = σ 2 M
此处利用了 M \boldsymbol{M} M 的对称性与幂等性。这一结果揭示了残差不是球形的:尽管真实扰动 ε \boldsymbol{\varepsilon} ε 具有同方差与无自相关性,估计残差 ε ^ \hat{\boldsymbol{\varepsilon}} ε ^ 却因投影而带有相关结构——单个残差的方差为 σ 2 ( 1 − h i i ) \sigma^2(1 - h_{ii}) σ 2 ( 1 − h ii ) ,其中 h i i h_{ii} h ii 为投影矩阵的第 i i i 个对角线元素(即杠杆值 )。这使得学生化残差 在诊断中不可替代。
与投影矩阵的对偶关系
P \boldsymbol{P} P 与 M \boldsymbol{M} M 构成 R n \mathbb{R}^n R n 的一对互补正交投影:P + M = I \boldsymbol{P} + \boldsymbol{M} = \boldsymbol{I} P + M = I ,且 P M = M P = 0 \boldsymbol{P}\boldsymbol{M} = \boldsymbol{M}\boldsymbol{P} = \boldsymbol{0} P M = M P = 0 。因此任何 n n n 维向量 y \boldsymbol{y} y 可唯一分解为两个正交分量的和:
y = P y + M y = y ^ + ε ^ \boldsymbol{y} = \boldsymbol{P}\boldsymbol{y} + \boldsymbol{M}\boldsymbol{y} = \hat{\boldsymbol{y}} + \hat{\boldsymbol{\varepsilon}} y = P y + M y = y ^ + ε ^
其中 y ^ ′ ε ^ = y ′ P M y = 0 \hat{\boldsymbol{y}}'\hat{\boldsymbol{\varepsilon}} = \boldsymbol{y}'\boldsymbol{P}\boldsymbol{M}\boldsymbol{y} = 0 y ^ ′ ε ^ = y ′ P M y = 0 。这正是方差分解 SST = SSE + SSR \text{SST} = \text{SSE} + \text{SSR} SST = SSE + SSR 的代数基础,也是 R 2 R^2 R 2 统计量的构造来源。
在模型诊断与计量检验中的应用
残差制造矩阵不仅是代数工具,在应用计量中也直接进入多种检验统计量的构造。
残差异方差检验 :Breusch-Pagan 检验 和White 检验 均以残差 ε ^ i \hat{\varepsilon}_i ε ^ i 或其平方作为被解释变量进行辅助回归,而这些检验的有限样本性质可通过 M \boldsymbol{M} M 的性质加以分析。
影响点诊断 :杠杆值 h i i h_{ii} h ii (P \boldsymbol{P} P 的对角元)和 M \boldsymbol{M} M 的对角元 m i i = 1 − h i i m_{ii} = 1 - h_{ii} m ii = 1 − h ii 联合决定了单个观测对回归结果的影响程度。Cook 距离 本质上度量了删除第 i i i 个观测后参数向量的变化,其代数形式直接依赖于 h i i h_{ii} h ii 与 ε ^ i \hat{\varepsilon}_i ε ^ i 。
序列相关检验 :Durbin-Watson 统计量 可写为 ε ^ ′ A ε ^ ε ^ ′ ε ^ \frac{\hat{\boldsymbol{\varepsilon}}'\boldsymbol{A}\hat{\boldsymbol{\varepsilon}}}{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}} ε ^ ′ ε ^ ε ^ ′ A ε ^ ,其中 A \boldsymbol{A} A 为一阶差分矩阵。由于 ε ^ = M y = M ε \hat{\boldsymbol{\varepsilon}} = \boldsymbol{M}\boldsymbol{y} = \boldsymbol{M}\boldsymbol{\varepsilon} ε ^ = M y = M ε ,该统计量的零分布依赖于 M A M \boldsymbol{M}\boldsymbol{A}\boldsymbol{M} M A M 的谱性质。
扩展:广义最小二乘中的对应物
在广义最小二乘 (GLS)框架下,若 Var ( ε ) = Ω \operatorname{Var}(\boldsymbol{\varepsilon}) = \boldsymbol{\Omega} Var ( ε ) = Ω (非标量协方差矩阵),投影矩阵推广为 P Ω = X ( X ′ Ω − 1 X ) − 1 X ′ Ω − 1 \boldsymbol{P}_{\boldsymbol{\Omega}} = \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{\Omega}^{-1}\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{\Omega}^{-1} P Ω = X ( X ′ Ω − 1 X ) − 1 X ′ Ω − 1 ,残差制造矩阵也随之变为 M Ω = I − P Ω \boldsymbol{M}_{\boldsymbol{\Omega}} = \boldsymbol{I} - \boldsymbol{P}_{\boldsymbol{\Omega}} M Ω = I − P Ω 。此时 M Ω \boldsymbol{M}_{\boldsymbol{\Omega}} M Ω 不再对称(除非 Ω = σ 2 I \boldsymbol{\Omega} = \sigma^2\boldsymbol{I} Ω = σ 2 I ),但依然满足幂等性与 M Ω X = 0 \boldsymbol{M}_{\boldsymbol{\Omega}}\boldsymbol{X} = \boldsymbol{0} M Ω X = 0 ,使 GLS 残差具备与 OLS 残差平行的代数结构。
残差制造矩阵是连接线性代数与统计推断的桥梁。理解 M \boldsymbol{M} M 是对 y \boldsymbol{y} y 中"数据说了什么"与"模型说了什么"之间差异的精确量化——它将观测值中与解释变量共线性的部分剥离,只留下模型无法解释的净残差。这一看似简单的代数构造,支撑着从 t t t 检验到 F F F 检验、从 R 2 R^2 R 2 到信息准则的几乎全部回归诊断体系。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。