ARTICLE

投影矩阵

投影矩阵 (Projection Matrix) 投影矩阵是线性代数和计量经济学中的核心工具,用于将向量正交投影到某个线性子空间上。在统计学的线性回归框架中,投影矩阵(通常称为帽子矩阵,Hat Matrix)将观测向量投影到设计矩阵的列空间上,从而生成拟合值。投影矩阵的代数性质(幂等性与对称性)使其成为推导最小二乘估计量统计性质的基础。 定义与代数性质 设

浏览 4 更新 2025-10-26

投影矩阵 (Projection Matrix)

投影矩阵线性代数计量经济学中的核心工具,用于将向量正交投影到某个线性子空间上。在统计学的线性回归框架中,投影矩阵(通常称为帽子矩阵,Hat Matrix)将观测向量投影到设计矩阵的列空间上,从而生成拟合值。投影矩阵的代数性质(幂等性与对称性)使其成为推导最小二乘估计量统计性质的基础。

定义与代数性质

Rn \mathbb{R}^n n n 维欧氏空间,VRn V \subseteq \mathbb{R}^n k k 维线性子空间(kn k \le n )。矩阵 PRn×n \mathbf{P} \in \mathbb{R}^{n \times n} 称为 V V 上的正交投影矩阵,当且仅当它满足以下两个条件:

  1. 幂等性 (Idempotence):P2=P \mathbf{P}^2 = \mathbf{P}
  2. 对称性 (Symmetry):PT=P \mathbf{P}^T = \mathbf{P}

幂等性保证了投影操作的一次性——已经落在子空间中的向量不再被改变:若 y=Px \mathbf{y} = \mathbf{P}\mathbf{x} 为某向量 x \mathbf{x} 的投影,则 Py=P2x=Px=y \mathbf{P}\mathbf{y} = \mathbf{P}^2\mathbf{x} = \mathbf{P}\mathbf{x} = \mathbf{y} 。对称性保证了投影是正交的,即投影误差向量 xPx \mathbf{x} - \mathbf{P}\mathbf{x} 与子空间中的任意向量正交。

投影矩阵的关键谱性质为:

P=Q(Ik000)QT\mathbf{P} = \mathbf{Q} \begin{pmatrix} \mathbf{I}_k & \mathbf{0} \\ \mathbf{0} & \mathbf{0} \end{pmatrix} \mathbf{Q}^T

其中 Q \mathbf{Q} 为正交矩阵。由此可见,投影矩阵的特征值仅为 1 1 (重数为 k k )和 0 0 (重数为 nk n - k )。由此直接导出两个重要恒等式:

tr(P)=rank(P)=k\operatorname{tr}(\mathbf{P}) = \operatorname{rank}(\mathbf{P}) = k

迹等于秩等于目标子空间的维数。这一性质在线性模型自由度计算中至关重要。

构造方法

给定由列满秩矩阵 XRn×k \mathbf{X} \in \mathbb{R}^{n \times k} 的列向量张成的子空间 V=col(X) V = \operatorname{col}(\mathbf{X}) ,正交投影矩阵的显式表达式为:

PX=X(XTX)1XT\mathbf{P}_{\mathbf{X}} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T

该公式可直接从正交投影的最小化问题导出。根据正交投影定理,向量 y \mathbf{y} col(X) \operatorname{col}(\mathbf{X}) 上的投影 y^=Xβ^ \hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} 应满足残差向量 yy^ \mathbf{y} - \hat{\mathbf{y}} col(X) \operatorname{col}(\mathbf{X}) 中每一列正交。令 XT(yXβ^)=0 \mathbf{X}^T(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) = \mathbf{0} ,解得 β^=(XTX)1XTy \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} ,从而 y^=X(XTX)1XTy=PXy \hat{\mathbf{y}} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} = \mathbf{P}_{\mathbf{X}}\mathbf{y}

与投影矩阵对应的是残差生成矩阵(或称为零化矩阵,Annihilator Matrix):

MX=InPX\mathbf{M}_{\mathbf{X}} = \mathbf{I}_n - \mathbf{P}_{\mathbf{X}}

MX \mathbf{M}_{\mathbf{X}} 同样是对称幂等矩阵,它将任意向量投影到 col(X) \operatorname{col}(\mathbf{X}) 正交补空间上,生成 OLS 残差:ε^=MXy \hat{\boldsymbol{\varepsilon}} = \mathbf{M}_{\mathbf{X}}\mathbf{y} PX \mathbf{P}_{\mathbf{X}} MX \mathbf{M}_{\mathbf{X}} 满足正交分解关系:PXMX=MXPX=0 \mathbf{P}_{\mathbf{X}}\mathbf{M}_{\mathbf{X}} = \mathbf{M}_{\mathbf{X}}\mathbf{P}_{\mathbf{X}} = \mathbf{0} ,且 rank(PX)+rank(MX)=n \operatorname{rank}(\mathbf{P}_{\mathbf{X}}) + \operatorname{rank}(\mathbf{M}_{\mathbf{X}}) = n

在最小二乘回归中的核心作用

普通最小二乘法 (OLS) 中,考虑模型 y=Xβ+ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} ,投影矩阵贯穿了估计和推断的全过程:

  1. 拟合值y^=PXy \hat{\mathbf{y}} = \mathbf{P}_{\mathbf{X}}\mathbf{y} ,即帽子矩阵将观测值投射到回归超平面上。矩阵得名"帽子"正是因为它在 y \mathbf{y} 上面"戴上了帽子"(y^ \hat{y} )。
  2. 残差分析ε^=MXy \hat{\boldsymbol{\varepsilon}} = \mathbf{M}_{\mathbf{X}}\mathbf{y} 。残差的协方差矩阵为 Var(ε^)=σ2MX \operatorname{Var}(\hat{\boldsymbol{\varepsilon}}) = \sigma^2\mathbf{M}_{\mathbf{X}} ,表明残差并非独立同分布,而是具有由设计矩阵结构所决定的相关性。单个残差的方差为 Var(ε^i)=σ2(1hii) \operatorname{Var}(\hat{\varepsilon}_i) = \sigma^2(1 - h_{ii}) ,其中 hii h_{ii} PX \mathbf{P}_{\mathbf{X}} 的第 i i 个对角线元素,称为杠杆值 (Leverage)。
  3. 杠杆值与影响点诊断:帽子矩阵的对角线元素 hii h_{ii} 满足 0hii1 0 \le h_{ii} \le 1 i=1nhii=k \sum_{i=1}^n h_{ii} = k 。高杠杆点(hii h_{ii} 接近 1)对拟合结果具有不成比例的影响,是回归诊断中检测影响点异常值的关键指标。通常以 2k/n 2k/n 3k/n 3k/n 作为杠杆值的阈值。
  4. 拟合优度决定系数 R2 R^2 可通过投影矩阵表示为 R2=PXy2/y2 R^2 = \|\mathbf{P}_{\mathbf{X}}\mathbf{y}\|^2 / \|\mathbf{y}\|^2 (当模型中包含截距项且数据已中心化时)。

分块回归与Frisch-Waugh-Lovell定理

将设计矩阵分块为 X=[X1    X2] \mathbf{X} = [\mathbf{X}_1 \;\; \mathbf{X}_2] ,FWL 定理的核心机制可通过投影矩阵清晰表述:X1 \mathbf{X}_1 的偏回归系数 β^1 \hat{\boldsymbol{\beta}}_1 等价于先用 MX2 \mathbf{M}_{\mathbf{X}_2} "清除" y \mathbf{y} X1 \mathbf{X}_1 中与 X2 \mathbf{X}_2 相关的部分,再将残差对残差回归:

β^1=(X1TMX2X1)1X1TMX2y\hat{\boldsymbol{\beta}}_1 = (\mathbf{X}_1^T\mathbf{M}_{\mathbf{X}_2}\mathbf{X}_1)^{-1}\mathbf{X}_1^T\mathbf{M}_{\mathbf{X}_2}\mathbf{y}

投影矩阵的这种"净化"(partialling out)功能是理解多元回归中"控制其他变量后"这一表述的精确数学语言。

几何直觉与投影分解

投影矩阵提供了线性模型最清晰的几何图像。将 y \mathbf{y} 分解为两个正交分量:

y=PXy+MXy=y^+ε^\mathbf{y} = \mathbf{P}_{\mathbf{X}}\mathbf{y} + \mathbf{M}_{\mathbf{X}}\mathbf{y} = \hat{\mathbf{y}} + \hat{\boldsymbol{\varepsilon}}

这两项分别属于 col(X) \operatorname{col}(\mathbf{X}) 和其正交补。在Rn \mathbb{R}^n 中,帽子矩阵执行了一次垂直投影。若模型设定正确(即 E[y]col(X) \mathbb{E}[\mathbf{y}] \in \operatorname{col}(\mathbf{X}) ),则 y^ \hat{\mathbf{y}} E[y] \mathbb{E}[\mathbf{y}] 的无偏估计;反之,若遗漏了重要变量,col(X) \operatorname{col}(\mathbf{X}) 不足以包含真实的期望值,投影即产生偏差——这正是遗漏变量偏误的几何本质。

扩展与相关概念

投影矩阵的概念从标准线性回归延伸至多个领域:

  • 广义最小二乘法 (GLS):在误差协方差矩阵为 Ω \boldsymbol{\Omega} 时,投影矩阵推广为 PXGLS=X(XTΩ1X)1XTΩ1 \mathbf{P}_{\mathbf{X}}^{\text{GLS}} = \mathbf{X}(\mathbf{X}^T\boldsymbol{\Omega}^{-1}\mathbf{X})^{-1}\mathbf{X}^T\boldsymbol{\Omega}^{-1} ,该矩阵在 Ω \boldsymbol{\Omega} -内积意义下是幂等的,但通常不再对称。
  • 岭回归正则化:引入 2 \ell_2 惩罚后,对应的"收缩投影矩阵"为 X(XTX+λI)1XT \mathbf{X}(\mathbf{X}^T\mathbf{X} + \lambda\mathbf{I})^{-1}\mathbf{X}^T ,其特征值被压缩至 (0,1) (0, 1) 区间内,不再具有幂等性——这是正则化引入偏倚以降低方差的代数表征。
  • 方差分析 (ANOVA):ANOVA 中的平方和分解 SST=SSE+SSR \text{SST} = \text{SSE} + \text{SSR} 本质上是对应于不同投影子空间的正交分解。多个嵌套模型的比较可通过一系列投影矩阵的关系来严格表述。
  • 主成分分析 (PCA):PCA 将数据投影到由前 k k 个主方向张成的子空间,对应的投影矩阵为 PPCA=VkVkT \mathbf{P}_{\text{PCA}} = \mathbf{V}_k\mathbf{V}_k^T ,其中 Vk \mathbf{V}_k 的列是前 k k 个主成分方向。

假设检验中的投影视角

投影矩阵为理解线性假设检验提供了统一框架。考虑检验线性约束 H0:Rβ=r H_0: \mathbf{R}\boldsymbol{\beta} = \mathbf{r} ,检验统计量可表述为两个嵌套投影之间距离的比较。设受约束模型下的投影矩阵为 PX0 \mathbf{P}_{\mathbf{X}_0} (对应于在 H0 H_0 约束下的列空间),无约束投影为 PX \mathbf{P}_{\mathbf{X}} ,则经典的 F F 统计量可写成:

F=(PXyPX0y)T(PXyPX0y)/qyTMXy/(nk)F = \frac{(\mathbf{P}_{\mathbf{X}}\mathbf{y} - \mathbf{P}_{\mathbf{X}_0}\mathbf{y})^T(\mathbf{P}_{\mathbf{X}}\mathbf{y} - \mathbf{P}_{\mathbf{X}_0}\mathbf{y}) / q}{\mathbf{y}^T\mathbf{M}_{\mathbf{X}}\mathbf{y} / (n - k)}

其中 q q 是约束的个数。分子度量了施加约束后拟合值的"损失"——即两个投影之差向量的平方长度,分母为每自由度的残差平方和。该表达式揭示了 F F 检验的几何本质:它比较的是同一个观测向量在两个嵌套子空间上的投影之间的差异是否显著大于噪声水平。

特别地,对于整体显著性检验(H0:β1=β2==βk1=0 H_0: \beta_1 = \beta_2 = \cdots = \beta_{k-1} = 0 ,仅保留截距),受约束投影矩阵退化为 P0=1n11T \mathbf{P}_0 = \frac{1}{n}\mathbf{1}\mathbf{1}^T (将所有观测投影到常数向量方向上),此时 F F 检验即为回归整体显著性的标准检验。

实证应用中的注意事项

在实际回归分析中,投影矩阵的性质带来若干需要警惕的问题。首先,杠杆值 hii h_{ii} 的大小直接取决于设计矩阵的结构:若某观测点的解释变量取值远离样本均值(即在高维空间中位于"边缘"位置),其杠杆值将异常高。高杠杆点本身未必是"坏"的——相反,它们对参数估计施加了不成比例的牵引力,但若恰好伴随较大的残差,则成为对估计结果构成严重威胁的影响点。常用诊断指标包括Cook距离,它将杠杆值与学生化残差结合,综合衡量删除某一观测后参数估计的变化幅度。

其次,投影矩阵的对角线元素之和等于模型参数的个数 k k ,这意味着随着解释变量数量的增加,平均杠杆值 k/n k/n 相应增大。当 k k 相对于 n n 并非很小时,每个观测点的影响力被分散得更薄,但个别点可能获得极高的杠杆——这是高维回归中需要特别关注的问题。在变量选择模型选择中,调整R2 R^2 AICBIC等信息准则本质上是在惩罚过大的 k k ,即惩罚投影矩阵秩的增大。

总结

投影矩阵虽表达简洁,却是连接线性代数、统计推断与计量经济学应用的枢纽性概念。它将回归分析的几乎所有核心要素——拟合值、残差、杠杆、R2 R^2 F F 检验——统一到正交投影这一几何操作之下。理解其代数结构(幂等、对称、秩-迹等式)与几何含义(正交投影、空间分解),是深入掌握线性模型理论的必要条件,也是进一步学习广义线性模型非参数回归高维统计的坚实基础。