ARTICLE

Moore-Penrose伪逆

Moore–Penrose 伪逆 (Moore–Penrose Pseudoinverse) Moore–Penrose 伪逆(Moore–Penrose Pseudoinverse,简称 M–P 伪逆)是对任意 m n 矩阵(包括非方阵和奇异方阵)定义的唯一的广义逆矩阵,记为 A^+。它将非奇异方阵的通常逆矩阵推广到了任意矩阵,并在最小二乘、线性方程组求解

浏览 0 更新 2025-11-08

Moore–Penrose 伪逆 (Moore–Penrose Pseudoinverse)

Moore–Penrose 伪逆(Moore–Penrose Pseudoinverse,简称 M–P 伪逆)是对任意 m×nm \times n 矩阵(包括非方阵和奇异方阵)定义的唯一的广义逆矩阵,记为 A+A^+。它将非奇异方阵的通常逆矩阵推广到了任意矩阵,并在最小二乘、线性方程组求解、统计学和机器学习中扮演核心角色。其概念分别由 E. H. Moore(1920)和 Roger Penrose(1955)独立提出,Penrose 的四条件刻画成为现代标准定义。

Penrose 四条件:定义与唯一性

对于 ARm×nA \in \mathbb{R}^{m \times n}(复数情形类似),其 M–P 伪逆 A+Rn×mA^+ \in \mathbb{R}^{n \times m} 是满足以下四个条件的唯一矩阵:

(1)AA+A=A(广义逆条件)(2)A+AA+=A+(弱逆条件)(3)(AA+)=AA+(对称性:AA+ 对称)(4)(A+A)=A+A(对称性:A+A 对称)\begin{aligned} \text{(1)}\quad & A A^+ A = A \qquad &\text{(广义逆条件)} \\ \text{(2)}\quad & A^+ A A^+ = A^+ \qquad &\text{(弱逆条件)} \\ \text{(3)}\quad & (A A^+)^\top = A A^+ \qquad &\text{(对称性:}AA^+\text{ 对称)} \\ \text{(4)}\quad & (A^+ A)^\top = A^+ A \qquad &\text{(对称性:}A^+A\text{ 对称)} \end{aligned}

条件 (1) 意味着 A+A^+ 是某种"逆"——它至少在一个方向上还原 AA 的作用;条件 (2) 要求 A+A^+ 自身也被 AA 还原;条件 (3) 和 (4) 分别保证 AA+AA^+A+AA^+A 都是正交投影矩阵。这四个条件的优雅之处在于,它们不仅唯一确定了 A+A^+,还赋予其清晰的几何解释:AA+AA^+ 是到 AA 的列空间的正交投影,A+AA^+A 是到 AA 的行空间的正交投影。

SVD 构造

求解 A+A^+ 最系统的方法基于奇异值分解。设 AA 的紧凑 SVD 为 A=UΣVA = U \Sigma V^\top,其中 URm×rU \in \mathbb{R}^{m \times r}VRn×rV \in \mathbb{R}^{n \times r} 分别具有正交列(r=rank(A)r = \operatorname{rank}(A)),Σ=diag(σ1,,σr)\Sigma = \operatorname{diag}(\sigma_1, \ldots, \sigma_r)σ1σr>0\sigma_1 \ge \cdots \ge \sigma_r > 0。则:

A+=VΣ1U=i=1r1σiviuiA^+ = V \Sigma^{-1} U^\top = \sum_{i=1}^{r} \frac{1}{\sigma_i} \mathbf{v}_i \mathbf{u}_i^\top

这一构造直接揭示了伪逆的本质:在 AA 的非零奇异方向(即行空间和列空间的交集)上按通常方式求逆,而在零奇异方向(即零空间成分)上映射为零。当 AA 为可逆方阵时,Σ1\Sigma^{-1} 即为通常的特征值倒数,A+=A1A^+ = A^{-1}

极限定义: 对于满秩情形,伪逆也可写为:

A+=limδ0(AA+δ2I)1A=limδ0A(AA+δ2I)1A^+ = \lim_{\delta \to 0} (A^\top A + \delta^2 I)^{-1} A^\top = \lim_{\delta \to 0} A^\top (A A^\top + \delta^2 I)^{-1}

此即Tikhonov正则化(岭回归)之极限形式,在数值计算与统计中反复出现。

特殊情形

  1. 列满秩(mnm \ge nrank=n\operatorname{rank}=n): \[ A^+ = (A^\top A)^{-1} A^\top \] 这就是普通最小二乘中的正规方程左乘矩阵,满足 A+A=InA^+A = I_n
  2. 行满秩(mnm \le nrank=m\operatorname{rank}=m): \[ A^+ = A^\top (A A^\top)^{-1} \] 满足 AA+=ImAA^+ = I_m,在欠定线性系统中给出最小欧几里得范数解。
  3. 非奇异方阵: A+=A1A^+ = A^{-1},四个条件退化为通常逆矩阵的性质。
  4. 标量情形:aRa \in \mathbb{R},若 a0a \neq 0a+=1/aa^+ = 1/a;若 a=0a = 00+=00^+ = 0
  5. 对角矩阵: 对于 Λ=diag(λ1,,λn)\Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)Λ+=diag(λ1+,,λn+)\Lambda^+ = \operatorname{diag}(\lambda_1^+, \ldots, \lambda_n^+),其中 λ+=1/λ\lambda^+ = 1/\lambda(当 λ0\lambda \neq 0)否则为 00

核心应用:线性最小二乘

M–P 伪逆最核心的应用是求解线性方程组 Ax=bA\mathbf{x} = \mathbf{b} 的最小二乘问题。无论方程组是超定、欠定还是秩亏,向量:

x=A+b\mathbf{x}^* = A^+ \mathbf{b}

是以下问题的唯一最小欧几里得范数最小二乘解:在所有使得 Axb2\|A\mathbf{x} - \mathbf{b}\|_2 最小的 x\mathbf{x} 中,x\mathbf{x}^* 具有最小 x2\|\mathbf{x}\|_2。换言之,A+A^+ 一次性同时解决了"尽量拟合"(最小二乘)和"尽量简洁"(最小范数)两个目标。

AA 列满秩,A+=(AA)1AA^+ = (A^\top A)^{-1}A^\topx\mathbf{x}^* 即为经典的 OLS 估计量 β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \mathbf{y}。若 AA 行满秩且方程组相容,A+bA^+ \mathbf{b} 给出所有解中范数最小的那个——这正是支持向量机中最大间隔求解和欠定系统分析的关键。

基本代数性质

(A+)+=A(A)+=(A+)(A+)=(A)+(λA)+=λ1A+(λ0)A+=(AA)+A=A(AA)+rank(A+)=rank(A)\begin{aligned} &(A^+)^+ = A && (A^\top)^+ = (A^+)^\top \\ &(A^+)^\top = (A^\top)^+ && (\lambda A)^+ = \lambda^{-1} A^+ \quad (\lambda \neq 0) \\ &A^+ = (A^\top A)^+ A^\top = A^\top (A A^\top)^+ && \operatorname{rank}(A^+) = \operatorname{rank}(A) \end{aligned}

值得留意的是,与通常逆矩阵不同,(AB)+B+A+(AB)^+ \neq B^+ A^+ 一般不成立。仅当 AA 列满秩且 BB 行满秩等特定条件下才成立。

与其他广义逆的关系

在广义逆的谱系中,M–P 伪逆是限制最强的成员:

  • 仅满足条件 (1) 的矩阵称为 \{1\}-逆或内逆,记为 AA^-,其不唯一,主要用于线性方程组相容性判定。
  • 满足条件 (1) 和 (2) 的为 \{1,2\}-逆或自反广义逆
  • M–P 伪逆则同时满足全部四个条件,因此是唯一的 \{1,2,3,4\}-逆。正是对称条件 (3) 和 (4) 带来的正交投影性质,使 M–P 伪逆在最小二乘问题中脱颖而出。

统计与机器学习中的角色

在线性回归中,当设计矩阵 XX 存在精确共线性(即 XXX^\top X 奇异),OLS 的解析解不再唯一,但 A+bA^+ \mathbf{b} 在所有最小二乘解中给出系数向量 β^\hat{\boldsymbol{\beta}} 的最小 2\ell_2 范数解——与岭回归的极限情形和某些最小范数插值现象紧密相关。在主成分回归偏最小二乘信号处理(如反卷积)中,伪逆的截断 SVD 形式 i=1kσi1viui\sum_{i=1}^{k} \sigma_i^{-1} \mathbf{v}_i \mathbf{u}_i^\top(取前 kk 个奇异值)通过丢弃小奇异值实现了正则化,是噪声抑制的关键手段。

OLS(满秩):β^=(XX)1Xy=X+y秩亏 OLS(最小范数):β^=X+y截断 SVD 正则化:β^k=i=1kviyσiui\begin{aligned} \text{OLS(满秩):}&\quad \hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \mathbf{y} = X^+ \mathbf{y} \\ \text{秩亏 OLS(最小范数):}&\quad \hat{\boldsymbol{\beta}} = X^+ \mathbf{y} \\ \text{截断 SVD 正则化:}&\quad \hat{\boldsymbol{\beta}}_k = \sum_{i=1}^{k} \frac{\mathbf{v}_i^\top \mathbf{y}}{\sigma_i} \mathbf{u}_i \end{aligned}

M–P 伪逆虽为纯粹的线性代数工具,却因其优雅的唯一性和正交投影结构,成为了从古典统计学到现代高维数据分析中连接理论代数与计算实践的桥梁。