ARTICLE

投影

投影 (Projection) 投影是线性代数中最基础且应用最广泛的概念之一,指将一个向量映射到某个子空间上的线性操作。在计量经济学和统计学中,投影的思想构成了普通最小二乘法(OLS)和线性回归的几何基石——OLS估计量本质上就是将因变量向量正交投影到由自变量张成的子空间上。投影的概念也从有限维向量空间扩展到泛函分析中的Hilbert空间,在信号处理、机器学

浏览 3 更新 2026-07-14

投影 (Projection)

投影线性代数中最基础且应用最广泛的概念之一,指将一个向量映射到某个子空间上的线性操作。在计量经济学统计学中,投影的思想构成了普通最小二乘法(OLS)和线性回归的几何基石——OLS估计量本质上就是将因变量向量正交投影到由自变量张成的子空间上。投影的概念也从有限维向量空间扩展到泛函分析中的Hilbert空间,在信号处理机器学习数值分析等多个领域发挥着核心作用。

定义与基本性质

向量投影

给定两个非零向量 a,bRn\mathbf{a}, \mathbf{b} \in \mathbb{R}^na\mathbf{a}b\mathbf{b} 上的标量投影(scalar projection)为:

compba=abb\text{comp}_{\mathbf{b}} \mathbf{a} = \frac{\mathbf{a} \cdot \mathbf{b}}{\|\mathbf{b}\|}

向量投影(vector projection)为:

projba=abbbb\text{proj}_{\mathbf{b}} \mathbf{a} = \frac{\mathbf{a} \cdot \mathbf{b}}{\mathbf{b} \cdot \mathbf{b}} \mathbf{b}

几何上,向量投影将 a\mathbf{a} 分解为平行于 b\mathbf{b} 的分量和垂直于 b\mathbf{b} 的分量(即正交补分量)。这一分解是唯一的,并且满足 a=projba+(aprojba)\mathbf{a} = \text{proj}_{\mathbf{b}} \mathbf{a} + (\mathbf{a} - \text{proj}_{\mathbf{b}} \mathbf{a}),其中两个分量相互正交。当 b\mathbf{b} 是单位向量时,向量投影简化为 (ab)b(\mathbf{a} \cdot \mathbf{b}) \mathbf{b},此时标量投影就是点积本身。

投影矩阵

更一般地,到某个子空间 SRn\mathcal{S} \subseteq \mathbb{R}^n 上的正交投影可以用投影矩阵 P\mathbf{P} 表示。投影矩阵满足两个关键性质:

P2=P(幂等性),P=P(对称性)\mathbf{P}^2 = \mathbf{P} \quad (\text{幂等性}), \qquad \mathbf{P}^\top = \mathbf{P} \quad (\text{对称性})

幂等性意味着重复投影不会改变结果——一旦向量落入子空间 S\mathcal{S},再次投影保持不动。对称性保证投影是正交的,即残差向量与子空间 S\mathcal{S} 中的所有向量正交。反之,任何满足幂等性和对称性的矩阵都是某个子空间上的正交投影矩阵。

若子空间 S\mathcal{S} 由矩阵 XRn×k\mathbf{X} \in \mathbb{R}^{n \times k}(列满秩)的列向量张成,则到 S\mathcal{S} 上的正交投影矩阵为:

PX=X(XX)1X\mathbf{P}_\mathbf{X} = \mathbf{X}(\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top

对应的消去矩阵(annihilator matrix)或残差投影矩阵MX=IPX\mathbf{M}_\mathbf{X} = \mathbf{I} - \mathbf{P}_\mathbf{X},它将向量投影到 S\mathcal{S} 的正交补空间上。投影矩阵 PX\mathbf{P}_\mathbf{X} 的秩等于 rank(X)\text{rank}(\mathbf{X}),而 MX\mathbf{M}_\mathbf{X} 的秩等于 nrank(X)n - \text{rank}(\mathbf{X})。值得注意的是,当 X\mathbf{X} 不是列满秩时,(XX)1(\mathbf{X}^\top \mathbf{X})^{-1} 不存在,但投影矩阵仍可通过广义逆 X(XX)+X\mathbf{X}(\mathbf{X}^\top \mathbf{X})^+ \mathbf{X}^\top 定义。

斜投影

除正交投影外,还存在斜投影(oblique projection)。斜投影不要求投影方向与目标子空间正交,其投影矩阵满足幂等性但不一定满足对称性。斜投影在工具变量估计(IV)和广义最小二乘法(GLS)中具有重要应用。例如,两阶段最小二乘法(2SLS)的估计量可以视为到工具变量张成空间上的某种斜投影。

计量经济学中的投影

OLS的几何解释

经典线性回归模型 y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}最小二乘估计的几何意义极为直观:在 nn 维空间中,y\mathbf{y} 是一个向量,X\mathbf{X} 的列张成一个 kk 维子空间(设计空间)。OLS估计量 β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{y} 使得拟合值 y^=Xβ^=PXy\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{P}_\mathbf{X} \mathbf{y} 恰好是 y\mathbf{y} 到该子空间的投影。残差向量 ε^=yy^=MXy\hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \hat{\mathbf{y}} = \mathbf{M}_\mathbf{X} \mathbf{y} 则正交于设计空间。

这一几何视角直接导出OLS的若干关键性质:

  • 残差与自变量正交:Xε^=0\mathbf{X}^\top \hat{\boldsymbol{\varepsilon}} = 0,这正是正规方程的几何表达。
  • 拟合值与残差正交:y^ε^=0\hat{\mathbf{y}}^\top \hat{\boldsymbol{\varepsilon}} = 0
  • 投影矩阵 PX\mathbf{P}_\mathbf{X} 的迹等于 kk,对应模型中的参数个数。
  • εN(0,σ2I)\boldsymbol{\varepsilon} \sim N(0, \sigma^2 \mathbf{I}),则残差平方和 ε^ε^=yMXy\hat{\boldsymbol{\varepsilon}}^\top \hat{\boldsymbol{\varepsilon}} = \mathbf{y}^\top \mathbf{M}_\mathbf{X} \mathbf{y} 服从 σ2χnk2\sigma^2 \chi^2_{n-k} 分布。

OLS投影视角还引出了方差分解总平方和(SST)可分解为解释平方和(SSE)和残差平方和(SSR),即 yy=y^y^+ε^ε^\mathbf{y}^\top \mathbf{y} = \hat{\mathbf{y}}^\top \hat{\mathbf{y}} + \hat{\boldsymbol{\varepsilon}}^\top \hat{\boldsymbol{\varepsilon}},这正是勾股定理在回归几何中的体现。

Frisch-Waugh-Lovell定理

Frisch-Waugh-Lovell定理(FWL定理)是投影思想在计量经济学中的又一经典应用。考虑回归模型 y=X1β1+X2β2+ε\mathbf{y} = \mathbf{X}_1\boldsymbol{\beta}_1 + \mathbf{X}_2\boldsymbol{\beta}_2 + \boldsymbol{\varepsilon},FWL定理表明,β2\boldsymbol{\beta}_2 的OLS估计量可以通过"偏回归"获得:先将 y\mathbf{y}X2\mathbf{X}_2 分别对 X1\mathbf{X}_1 回归,取残差,再将 y\mathbf{y} 的残差对 X2\mathbf{X}_2 的残差回归。用投影的语言表达,即:

β^2=(X2MX1X2)1X2MX1y\hat{\boldsymbol{\beta}}_2 = (\mathbf{X}_2^\top \mathbf{M}_{\mathbf{X}_1} \mathbf{X}_2)^{-1} \mathbf{X}_2^\top \mathbf{M}_{\mathbf{X}_1} \mathbf{y}

其中 MX1=IPX1\mathbf{M}_{\mathbf{X}_1} = \mathbf{I} - \mathbf{P}_{\mathbf{X}_1} 消去了 X1\mathbf{X}_1 的影响。这一性质深刻揭示了多元回归中"控制其他变量"的几何本质——MX1\mathbf{M}_{\mathbf{X}_1}y\mathbf{y}X2\mathbf{X}_2 中由 X1\mathbf{X}_1 解释的部分"投影出去"。

Gauss-Markov定理与投影

Gauss-Markov定理也可用投影的语言简洁表述:在经典线性模型假设下,OLS估计量是BLUE(最佳线性无偏估计量)。从投影角度看,任何线性无偏估计量 β~=Cy\tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y} 必须满足 CX=I\mathbf{C}\mathbf{X} = \mathbf{I}。OLS估计量对应于 C=(XX)1X\mathbf{C} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top,其方差为 σ2(XX)1\sigma^2 (\mathbf{X}^\top \mathbf{X})^{-1}。Gauss-Markov定理证明,对于任意其他线性无偏估计量,其方差与OLS方差之差是一个半正定矩阵。

正交投影与条件期望

概率论计量经济学中,条件期望 E(YX)E(Y | X) 可以被理解为 YY 到由 XX 的函数所张成的空间上的投影。具体地,在所有关于 XX 的可测函数中,条件期望是使均方误差最小的那个——这正是正交投影的性质:

E(YX)=argmingL2(σ(X))E[(Yg(X))2]E(Y | X) = \arg\min_{g \in L^2(\sigma(X))} E[(Y - g(X))^2]

当限制 ggXX 的线性函数时,得到的就是线性投影(linear projection),即 XXYY 的最佳线性预测。线性投影与条件期望一致当且仅当条件期望本身是 XX 的线性函数(例如在多元正态分布中)。线性投影的系数为 β=[Var(X)]1Cov(X,Y)\boldsymbol{\beta} = [\text{Var}(X)]^{-1} \text{Cov}(X, Y),这与OLS估计量的概率极限一致。

广义投影与矩阵分解

投影的思想也渗透在多种重要的矩阵分解方法中。特征值分解奇异值分解(SVD)将矩阵分解为一系列秩一投影的和。对于对称矩阵 A=QΛQ\mathbf{A} = \mathbf{Q} \boldsymbol{\Lambda} \mathbf{Q}^\top,可写为 A=i=1nλiqiqi\mathbf{A} = \sum_{i=1}^n \lambda_i \mathbf{q}_i \mathbf{q}_i^\top,其中每一项 qiqi\mathbf{q}_i \mathbf{q}_i^\top 都是到特征向量方向上的投影矩阵。

主成分分析(PCA)寻找数据在方差最大方向上的投影,即求解 maxw=1Var(Xw)\max_{\|\mathbf{w}\|=1} \text{Var}(\mathbf{X}\mathbf{w}),其解为样本协方差矩阵的最大特征值对应的特征向量。线性判别分析(LDA)则寻找类间可分性最大的投影方向。在压缩感知降维领域,随机投影利用Johnson-Lindenstrauss引理保证高维数据在低维投影空间中的距离近似保持。Gram-Schmidt正交化过程本质上也依赖于投影操作——每一步从当前向量中减去其在已正交化向量上的投影。

总结

投影是连接线性代数、统计学和计量经济学的桥梁概念。从OLS估计量的几何解释到FWL定理,从条件期望到高维数据的降维,投影提供了一个统一的数学语言来描述"最佳逼近"和"信息提取"。理解投影的几何直观——将一个对象映射到某个子空间并保留在该子空间中的"最佳代表"——是掌握现代计量经济学和统计学习理论的关键一步。