ARTICLE

斜投影

斜投影 (Oblique Projection) 斜投影 (Oblique Projection) 是线性代数与泛函分析中的一种线性变换,它将向量空间中的任意向量投射到某个子空间上,且投影方向不必与目标子空间正交。与之相对的是 正交投影 (Orthogonal Projection),后者要求投影方向垂直于目标子空间。斜投影在计量经济学、统计学、信号处理和数

浏览 0 更新 2025-11-08

斜投影 (Oblique Projection)

斜投影 (Oblique Projection) 是线性代数与泛函分析中的一种线性变换,它将向量空间中的任意向量投射到某个子空间上,且投影方向不必与目标子空间正交。与之相对的是 正交投影 (Orthogonal Projection),后者要求投影方向垂直于目标子空间。斜投影在计量经济学统计学、信号处理和数值分析中有广泛应用,尤其是涉及非正交基或内生性问题的场合。

定义与基本构造

VV 是一个有限维向量空间,且存在直和分解:

V=MNV = M \oplus N

其中 MM 是目标子空间(投影的"落点"),NN 是投影方向子空间(即投影沿 NN 进行)。这一直和分解意味着:

MN={0},M+N=VM \cap N = \{0\}, \quad M + N = V

对于任意向量 vVv \in V,存在唯一的分解:

v=m+n,mM,  nNv = m + n, \quad m \in M,\; n \in N

则定义 沿 NNMM 上的斜投影 为线性算子 PMNP_{M|N}

PMN(v)=mP_{M|N}(v) = m

几何上,穿过 vv 作一条与 NN 平行的直线,该直线与 MM 的交点即为投影点。当 N=MN = M^{\perp}MM 的正交补)时,斜投影退化为正交投影

矩阵表示

XXWW 分别为 MMNN^{\perp} 的基矩阵(即列满秩矩阵)。则沿 NNMM 上的斜投影矩阵为:

P=X(WX)1WP = X (W^{\top} X)^{-1} W^{\top}

此处要求 WXW^{\top} X 可逆,这是 MN={0}M \cap N = \{0\} 的代数等价条件。

W=XW = X 时,上述公式退化为标准正交投影矩阵:

Porth=X(XX)1XP_{\text{orth}} = X (X^{\top} X)^{-1} X^{\top}

由此可见,斜投影将正交投影中的对称投影矩阵 (XX)1X(X^{\top} X)^{-1} X^{\top} 替换为不对称的 (WX)1W(W^{\top} X)^{-1} W^{\top}。正因如此,斜投影矩阵通常是非对称的,这构成了其与正交投影的本质区别。

投影算子的性质

斜投影矩阵 PP 满足以下基本性质:

  1. 幂等性 (Idempotence)P2=PP^2 = P。这是所有投影算子的定义性质。直观上,一旦向量已被投射到 MM 上,再次投影不会改变结果。
  2. 非对称性:一般情况下 PPP \neq P^{\top}。仅当 PP 同时为正交投影时,矩阵才是对称的。
  3. 像空间与零空间: \[ \operatorname{im}(P) = M, \quad \ker(P) = N \] 即投影的像等于目标子空间,投影的零空间等于投影方向子空间。
  4. 互补投影 (Complementary Projector):若 P=PMNP = P_{M|N},则 IPI - P 是沿 MMNN 上的斜投影: \[ I - P = P_{N|M} \] 这在构造分块矩阵的逆时有重要应用。

与正交投影的关系

任一斜投影 PMNP_{M|N} 均可通过一个非奇异变换与正交投影建立联系。具体而言,若 PMP_M 是到 MM 上的正交投影,则存在可逆矩阵 AA 使得:

PMN=PM(PM+(IPM)Q)1P_{M|N} = P_M (P_M + (I - P_M) Q)^{-1}

其中 QQNN 的选取决定。

一种更直接的构造方式是利用 加权内积。若定义一个新的内积 x,yG=xGy\langle x, y \rangle_G = x^{\top} G yGG 为对称正定矩阵),则关于该内积的正交投影在原欧几里得度量下表现为斜投影。这一观点在广义最小二乘法 (GLS) 中尤为关键。

在计量经济学中的应用

工具变量估计

线性回归模型 y=Xβ+εy = X\beta + \varepsilon 中,若 E[Xε]0\mathbb{E}[X^{\top}\varepsilon] \neq 0(即存在内生性),普通最小二乘法 (OLS) 不是一致的。此时使用 工具变量 (Instrumental Variables, IV) 矩阵 ZZ(满足 E[Zε]=0\mathbb{E}[Z^{\top}\varepsilon] = 0ZXZ^{\top}X 满秩),IV 估计量可写为:

β^IV=(ZX)1Zy\hat{\beta}_{IV} = (Z^{\top}X)^{-1} Z^{\top} y

其对应的拟合值矩阵为:

y^=PIVy,PIV=X(ZX)1Z\hat{y} = P_{IV}\, y, \quad P_{IV} = X (Z^{\top} X)^{-1} Z^{\top}

这正是沿 ZZ 的零空间到 XX 的列空间上的斜投影。IV 估计的本质在于:利用工具变量 ZZ 将内生变量"投影"到一个与外生性约束相容的方向上。

两阶段最小二乘法 (2SLS)

两阶段最小二乘法 (Two-Stage Least Squares, 2SLS) 可紧凑地表示为两个嵌套投影:

β^2SLS=(XPZX)1XPZy\hat{\beta}_{2SLS} = (X^{\top} P_Z X)^{-1} X^{\top} P_Z y

其中 PZ=Z(ZZ)1ZP_Z = Z(Z^{\top}Z)^{-1}Z^{\top} 是到 ZZ 列空间上的正交投影。第一阶段的拟合值 X^=PZX\hat{X} = P_Z X 消除了内生性的影响;第二阶段将 yy 回归到 X^\hat{X} 上。

从投影视角看,2SLS 的拟合值为 P2SLS=X(XPZX)1XPZP_{2SLS} = X (X^{\top} P_Z X)^{-1} X^{\top} P_Z,这是一个斜投影。它与 IV 斜投影 PIVP_{IV} 等价,揭示了两种估计量的代数一致性。

部分回归与 Frisch-Waugh-Lovell 定理

Frisch-Waugh-Lovell定理 (FWL) 本质上是关于正交投影与斜投影交互的定理。考虑分块回归模型:

y=X1β1+X2β2+εy = X_1\beta_1 + X_2\beta_2 + \varepsilon

M2=IX2(X2X2)1X2M_2 = I - X_2 (X_2^{\top} X_2)^{-1} X_2^{\top} 为到 X2X_2 正交补上的投影。FWL 定理表明,β1\beta_1 的 OLS 估计等价于将 M2yM_2 yM2X1M_2 X_1 回归。这里的 M2M_2 是正交投影,但二者结合后对 X1X_1 的估计在原始空间中的表示就是一个斜投影。

在统计学中的其他应用

方差分析 (ANOVA) 中,当数据不平衡时,不同类型 (Type I, II, III) 的平方和分解对应不同的投影方式。Type III SS 可解释为一种斜投影分解——每个效应在调整了所有其他效应后进行检验。

线性混合模型 中,随机效应的预测(BLUP)可通过求解混合模型方程获得。该方程的解在几何上对应一个斜投影(将观测向量投射到固定效应与随机效应共同张成的空间上)。

数值计算中的注意事项

斜投影矩阵 (WX)1W(W^{\top}X)^{-1}W^{\top} 的计算需要谨慎处理。以下是关键考虑因素:

  1. 条件数 (Condition Number):若 WWXX 接近共线(即 MMNN^{\perp} 夹角很小),则 WXW^{\top}X 接近奇异,数值反演不稳定。这在 IV 估计中对应弱工具变量问题——工具变量与内生变量的相关性过弱会导致估计量分布严重偏离。
  2. QR 分解:建议使用 QR 分解而非直接求逆。对 XXWW 分别做 QR 分解 X=QXRXX = Q_X R_XW=QWRWW = Q_W R_W,则投影可写为: \[ P = Q_X (Q_W^{\top} Q_X)^{-1} Q_W^{\top} \] 其中 QWQXQ_W^{\top} Q_X 是一个较小的矩阵,求逆更稳定。
  3. 矩阵无需求解:在实际应用中,通常不需要显式构造投影矩阵 PP,而只需计算 PP 对特定向量的作用。这可通过解线性方程组实现,避免了显式矩阵乘法的开销。

泛化:无限维空间中的斜投影

希尔伯特空间巴拿赫空间中,斜投影理论可以推广。若 HH 是一个希尔伯特空间,且 H=MNH = M \oplus N 是代数直和(不一定正交),则斜投影 PMNP_{M|N} 是一个有界幂等算子。然而,与有限维情形不同,并非任意闭子空间对都构成拓扑直和——需要子空间满足互补条件(即 M+NM + N 为闭集且 MN={0}M \cap N = \{0\})。

在信号处理中,斜投影滤波器 用于在保留某一信号子空间分量的同时,完全抑制另一干扰子空间分量。这种滤波器的设计直接利用了斜投影的直和分解性质。

总结

斜投影是正交投影的直接推广,其核心是放弃了"投影方向垂直于目标空间"的约束。其代数本质是直和分解 V=MNV = M \oplus N 所定义的幂等线性变换。在经济学和统计学中,斜投影构成了理解工具变量估计、2SLS、GLS 及非平衡 ANOVA 等方法的统一几何框架。掌握斜投影的代数构造与几何直觉,有助于深入理解线性模型中各种估计量的本质联系与差异。