投影 (Projection)
投影 是线性代数 中最基础且应用最广泛的概念之一,指将一个向量映射到某个子空间上的线性操作。在计量经济学 和统计学 中,投影的思想构成了普通最小二乘法 (OLS)和线性回归 的几何基石——OLS估计量本质上就是将因变量向量正交投影到由自变量张成的子空间上。投影的概念也从有限维向量空间扩展到泛函分析 中的Hilbert空间 ,在信号处理 、机器学习 和数值分析 等多个领域发挥着核心作用。
定义与基本性质
向量投影
给定两个非零向量 a , b ∈ R n \mathbf{a}, \mathbf{b} \in \mathbb{R}^n a , b ∈ R n ,a \mathbf{a} a 在 b \mathbf{b} b 上的标量投影 (scalar projection)为:
comp b a = a ⋅ b ∥ b ∥ \text{comp}_{\mathbf{b}} \mathbf{a} = \frac{\mathbf{a} \cdot \mathbf{b}}{\|\mathbf{b}\|} comp b a = ∥ b ∥ a ⋅ b
其向量投影 (vector projection)为:
proj b a = a ⋅ b b ⋅ b b \text{proj}_{\mathbf{b}} \mathbf{a} = \frac{\mathbf{a} \cdot \mathbf{b}}{\mathbf{b} \cdot \mathbf{b}} \mathbf{b} proj b a = b ⋅ b a ⋅ b b
几何上,向量投影将 a \mathbf{a} a 分解为平行于 b \mathbf{b} b 的分量和垂直于 b \mathbf{b} b 的分量(即正交补分量)。这一分解是唯一的,并且满足 a = proj b a + ( a − proj b a ) \mathbf{a} = \text{proj}_{\mathbf{b}} \mathbf{a} + (\mathbf{a} - \text{proj}_{\mathbf{b}} \mathbf{a}) a = proj b a + ( a − proj b a ) ,其中两个分量相互正交 。当 b \mathbf{b} b 是单位向量时,向量投影简化为 ( a ⋅ b ) b (\mathbf{a} \cdot \mathbf{b}) \mathbf{b} ( a ⋅ b ) b ,此时标量投影就是点积本身。
投影矩阵
更一般地,到某个子空间 S ⊆ R n \mathcal{S} \subseteq \mathbb{R}^n S ⊆ R n 上的正交投影可以用投影矩阵 P \mathbf{P} P 表示。投影矩阵满足两个关键性质:
P 2 = P ( 幂等性 ) , P ⊤ = P ( 对称性 ) \mathbf{P}^2 = \mathbf{P} \quad (\text{幂等性}), \qquad \mathbf{P}^\top = \mathbf{P} \quad (\text{对称性}) P 2 = P ( 幂等性 ) , P ⊤ = P ( 对称性 )
幂等性意味着重复投影不会改变结果——一旦向量落入子空间 S \mathcal{S} S ,再次投影保持不动。对称性保证投影是正交的,即残差向量与子空间 S \mathcal{S} S 中的所有向量正交。反之,任何满足幂等性和对称性的矩阵都是某个子空间上的正交投影矩阵。
若子空间 S \mathcal{S} S 由矩阵 X ∈ R n × k \mathbf{X} \in \mathbb{R}^{n \times k} X ∈ R n × k (列满秩)的列向量张成,则到 S \mathcal{S} S 上的正交投影矩阵为:
P X = X ( X ⊤ X ) − 1 X ⊤ \mathbf{P}_\mathbf{X} = \mathbf{X}(\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top P X = X ( X ⊤ X ) − 1 X ⊤
对应的消去矩阵 (annihilator matrix)或残差投影矩阵 为 M X = I − P X \mathbf{M}_\mathbf{X} = \mathbf{I} - \mathbf{P}_\mathbf{X} M X = I − P X ,它将向量投影到 S \mathcal{S} S 的正交补空间上。投影矩阵 P X \mathbf{P}_\mathbf{X} P X 的秩等于 rank ( X ) \text{rank}(\mathbf{X}) rank ( X ) ,而 M X \mathbf{M}_\mathbf{X} M X 的秩等于 n − rank ( X ) n - \text{rank}(\mathbf{X}) n − rank ( X ) 。值得注意的是,当 X \mathbf{X} X 不是列满秩时,( X ⊤ X ) − 1 (\mathbf{X}^\top \mathbf{X})^{-1} ( X ⊤ X ) − 1 不存在,但投影矩阵仍可通过广义逆 X ( X ⊤ X ) + X ⊤ \mathbf{X}(\mathbf{X}^\top \mathbf{X})^+ \mathbf{X}^\top X ( X ⊤ X ) + X ⊤ 定义。
斜投影
除正交投影外,还存在斜投影 (oblique projection)。斜投影不要求投影方向与目标子空间正交,其投影矩阵满足幂等性但不一定满足对称性。斜投影在工具变量估计 (IV)和广义最小二乘法 (GLS)中具有重要应用。例如,两阶段最小二乘法(2SLS)的估计量可以视为到工具变量张成空间上的某种斜投影。
计量经济学中的投影
OLS的几何解释
经典线性回归模型 y = X β + ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} y = X β + ε 的最小二乘估计 的几何意义极为直观:在 n n n 维空间中,y \mathbf{y} y 是一个向量,X \mathbf{X} X 的列张成一个 k k k 维子空间(设计空间)。OLS估计量 β ^ = ( X ⊤ X ) − 1 X ⊤ y \hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{y} β ^ = ( X ⊤ X ) − 1 X ⊤ y 使得拟合值 y ^ = X β ^ = P X y \hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{P}_\mathbf{X} \mathbf{y} y ^ = X β ^ = P X y 恰好是 y \mathbf{y} y 到该子空间的投影。残差向量 ε ^ = y − y ^ = M X y \hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \hat{\mathbf{y}} = \mathbf{M}_\mathbf{X} \mathbf{y} ε ^ = y − y ^ = M X y 则正交于设计空间。
这一几何视角直接导出OLS的若干关键性质:
残差与自变量正交:X ⊤ ε ^ = 0 \mathbf{X}^\top \hat{\boldsymbol{\varepsilon}} = 0 X ⊤ ε ^ = 0 ,这正是正规方程 的几何表达。 拟合值与残差正交:y ^ ⊤ ε ^ = 0 \hat{\mathbf{y}}^\top \hat{\boldsymbol{\varepsilon}} = 0 y ^ ⊤ ε ^ = 0 。 投影矩阵 P X \mathbf{P}_\mathbf{X} P X 的迹等于 k k k ,对应模型中的参数个数。 若 ε ∼ N ( 0 , σ 2 I ) \boldsymbol{\varepsilon} \sim N(0, \sigma^2 \mathbf{I}) ε ∼ N ( 0 , σ 2 I ) ,则残差平方和 ε ^ ⊤ ε ^ = y ⊤ M X y \hat{\boldsymbol{\varepsilon}}^\top \hat{\boldsymbol{\varepsilon}} = \mathbf{y}^\top \mathbf{M}_\mathbf{X} \mathbf{y} ε ^ ⊤ ε ^ = y ⊤ M X y 服从 σ 2 χ n − k 2 \sigma^2 \chi^2_{n-k} σ 2 χ n − k 2 分布。
OLS投影视角还引出了方差分解 :总平方和 (SST)可分解为解释平方和 (SSE)和残差平方和 (SSR),即 y ⊤ y = y ^ ⊤ y ^ + ε ^ ⊤ ε ^ \mathbf{y}^\top \mathbf{y} = \hat{\mathbf{y}}^\top \hat{\mathbf{y}} + \hat{\boldsymbol{\varepsilon}}^\top \hat{\boldsymbol{\varepsilon}} y ⊤ y = y ^ ⊤ y ^ + ε ^ ⊤ ε ^ ,这正是勾股定理 在回归几何中的体现。
Frisch-Waugh-Lovell定理
Frisch-Waugh-Lovell定理 (FWL定理)是投影思想在计量经济学中的又一经典应用。考虑回归模型 y = X 1 β 1 + X 2 β 2 + ε \mathbf{y} = \mathbf{X}_1\boldsymbol{\beta}_1 + \mathbf{X}_2\boldsymbol{\beta}_2 + \boldsymbol{\varepsilon} y = X 1 β 1 + X 2 β 2 + ε ,FWL定理表明,β 2 \boldsymbol{\beta}_2 β 2 的OLS估计量可以通过"偏回归"获得:先将 y \mathbf{y} y 和 X 2 \mathbf{X}_2 X 2 分别对 X 1 \mathbf{X}_1 X 1 回归,取残差,再将 y \mathbf{y} y 的残差对 X 2 \mathbf{X}_2 X 2 的残差回归。用投影的语言表达,即:
β ^ 2 = ( X 2 ⊤ M X 1 X 2 ) − 1 X 2 ⊤ M X 1 y \hat{\boldsymbol{\beta}}_2 = (\mathbf{X}_2^\top \mathbf{M}_{\mathbf{X}_1} \mathbf{X}_2)^{-1} \mathbf{X}_2^\top \mathbf{M}_{\mathbf{X}_1} \mathbf{y} β ^ 2 = ( X 2 ⊤ M X 1 X 2 ) − 1 X 2 ⊤ M X 1 y
其中 M X 1 = I − P X 1 \mathbf{M}_{\mathbf{X}_1} = \mathbf{I} - \mathbf{P}_{\mathbf{X}_1} M X 1 = I − P X 1 消去了 X 1 \mathbf{X}_1 X 1 的影响。这一性质深刻揭示了多元回归中"控制其他变量"的几何本质——M X 1 \mathbf{M}_{\mathbf{X}_1} M X 1 将 y \mathbf{y} y 和 X 2 \mathbf{X}_2 X 2 中由 X 1 \mathbf{X}_1 X 1 解释的部分"投影出去"。
Gauss-Markov定理与投影
Gauss-Markov定理 也可用投影的语言简洁表述:在经典线性模型假设 下,OLS估计量是BLUE(最佳线性无偏估计量)。从投影角度看,任何线性无偏估计量 β ~ = C y \tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y} β ~ = Cy 必须满足 C X = I \mathbf{C}\mathbf{X} = \mathbf{I} CX = I 。OLS估计量对应于 C = ( X ⊤ X ) − 1 X ⊤ \mathbf{C} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top C = ( X ⊤ X ) − 1 X ⊤ ,其方差为 σ 2 ( X ⊤ X ) − 1 \sigma^2 (\mathbf{X}^\top \mathbf{X})^{-1} σ 2 ( X ⊤ X ) − 1 。Gauss-Markov定理证明,对于任意其他线性无偏估计量,其方差与OLS方差之差是一个半正定矩阵。
正交投影与条件期望
在概率论 和计量经济学 中,条件期望 E ( Y ∣ X ) E(Y | X) E ( Y ∣ X ) 可以被理解为 Y Y Y 到由 X X X 的函数所张成的空间上的投影。具体地,在所有关于 X X X 的可测函数中,条件期望是使均方误差最小的那个——这正是正交投影 的性质:
E ( Y ∣ X ) = arg min g ∈ L 2 ( σ ( X ) ) E [ ( Y − g ( X ) ) 2 ] E(Y | X) = \arg\min_{g \in L^2(\sigma(X))} E[(Y - g(X))^2] E ( Y ∣ X ) = arg g ∈ L 2 ( σ ( X )) min E [( Y − g ( X ) ) 2 ]
当限制 g g g 为 X X X 的线性函数时,得到的就是线性投影 (linear projection),即 X X X 对 Y Y Y 的最佳线性预测。线性投影与条件期望一致当且仅当条件期望本身是 X X X 的线性函数(例如在多元正态分布 中)。线性投影的系数为 β = [ Var ( X ) ] − 1 Cov ( X , Y ) \boldsymbol{\beta} = [\text{Var}(X)]^{-1} \text{Cov}(X, Y) β = [ Var ( X ) ] − 1 Cov ( X , Y ) ,这与OLS估计量的概率极限一致。
广义投影与矩阵分解
投影的思想也渗透在多种重要的矩阵分解方法中。特征值分解 和奇异值分解 (SVD)将矩阵分解为一系列秩一投影的和。对于对称矩阵 A = Q Λ Q ⊤ \mathbf{A} = \mathbf{Q} \boldsymbol{\Lambda} \mathbf{Q}^\top A = Q Λ Q ⊤ ,可写为 A = ∑ i = 1 n λ i q i q i ⊤ \mathbf{A} = \sum_{i=1}^n \lambda_i \mathbf{q}_i \mathbf{q}_i^\top A = ∑ i = 1 n λ i q i q i ⊤ ,其中每一项 q i q i ⊤ \mathbf{q}_i \mathbf{q}_i^\top q i q i ⊤ 都是到特征向量方向上的投影矩阵。
主成分分析 (PCA)寻找数据在方差最大方向上的投影,即求解 max ∥ w ∥ = 1 Var ( X w ) \max_{\|\mathbf{w}\|=1} \text{Var}(\mathbf{X}\mathbf{w}) max ∥ w ∥ = 1 Var ( Xw ) ,其解为样本协方差矩阵的最大特征值对应的特征向量。线性判别分析 (LDA)则寻找类间可分性最大的投影方向。在压缩感知 和降维 领域,随机投影利用Johnson-Lindenstrauss引理 保证高维数据在低维投影空间中的距离近似保持。Gram-Schmidt正交化过程 本质上也依赖于投影操作——每一步从当前向量中减去其在已正交化向量上的投影。
总结
投影是连接线性代数、统计学和计量经济学的桥梁概念。从OLS估计量的几何解释到FWL定理,从条件期望到高维数据的降维,投影提供了一个统一的数学语言来描述"最佳逼近"和"信息提取"。理解投影的几何直观——将一个对象映射到某个子空间并保留在该子空间中的"最佳代表"——是掌握现代计量经济学和统计学习理论的关键一步。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。