Moore–Penrose 伪逆 (Moore–Penrose Pseudoinverse)
Moore–Penrose 伪逆 (Moore–Penrose Pseudoinverse,简称 M–P 伪逆)是对任意 m × n m \times n m × n 矩阵(包括非方阵和奇异方阵)定义的唯一的 广义逆矩阵,记为 A + A^+ A + 。它将非奇异方阵的通常逆矩阵推广到了任意矩阵,并在最小二乘、线性方程组求解、统计学和机器学习中扮演核心角色。其概念分别由 E. H. Moore (1920)和 Roger Penrose (1955)独立提出,Penrose 的四条件刻画成为现代标准定义。
Penrose 四条件:定义与唯一性
对于 A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n (复数情形类似),其 M–P 伪逆 A + ∈ R n × m A^+ \in \mathbb{R}^{n \times m} A + ∈ R n × m 是满足以下四个条件的唯一矩阵:
(1) A A + A = A (广义逆条件) (2) A + A A + = A + (弱逆条件) (3) ( A A + ) ⊤ = A A + (对称性: A A + 对称) (4) ( A + A ) ⊤ = A + A (对称性: A + A 对称) \begin{aligned}
\text{(1)}\quad & A A^+ A = A \qquad &\text{(广义逆条件)} \\
\text{(2)}\quad & A^+ A A^+ = A^+ \qquad &\text{(弱逆条件)} \\
\text{(3)}\quad & (A A^+)^\top = A A^+ \qquad &\text{(对称性:}AA^+\text{ 对称)} \\
\text{(4)}\quad & (A^+ A)^\top = A^+ A \qquad &\text{(对称性:}A^+A\text{ 对称)}
\end{aligned} (1) (2) (3) (4) A A + A = A A + A A + = A + ( A A + ) ⊤ = A A + ( A + A ) ⊤ = A + A ( 广义逆条件 ) ( 弱逆条件 ) ( 对称性: A A + 对称 ) ( 对称性: A + A 对称 )
条件 (1) 意味着 A + A^+ A + 是某种"逆"——它至少在一个方向上还原 A A A 的作用;条件 (2) 要求 A + A^+ A + 自身也被 A A A 还原;条件 (3) 和 (4) 分别保证 A A + AA^+ A A + 和 A + A A^+A A + A 都是正交投影 矩阵。这四个条件的优雅之处在于,它们不仅唯一确定了 A + A^+ A + ,还赋予其清晰的几何解释:A A + AA^+ A A + 是到 A A A 的列空间的正交投影,A + A A^+A A + A 是到 A A A 的行空间的正交投影。
SVD 构造
求解 A + A^+ A + 最系统的方法基于奇异值分解 。设 A A A 的紧凑 SVD 为 A = U Σ V ⊤ A = U \Sigma V^\top A = U Σ V ⊤ ,其中 U ∈ R m × r U \in \mathbb{R}^{m \times r} U ∈ R m × r 、V ∈ R n × r V \in \mathbb{R}^{n \times r} V ∈ R n × r 分别具有正交列(r = rank ( A ) r = \operatorname{rank}(A) r = rank ( A ) ),Σ = diag ( σ 1 , … , σ r ) \Sigma = \operatorname{diag}(\sigma_1, \ldots, \sigma_r) Σ = diag ( σ 1 , … , σ r ) 且 σ 1 ≥ ⋯ ≥ σ r > 0 \sigma_1 \ge \cdots \ge \sigma_r > 0 σ 1 ≥ ⋯ ≥ σ r > 0 。则:
A + = V Σ − 1 U ⊤ = ∑ i = 1 r 1 σ i v i u i ⊤ A^+ = V \Sigma^{-1} U^\top = \sum_{i=1}^{r} \frac{1}{\sigma_i} \mathbf{v}_i \mathbf{u}_i^\top A + = V Σ − 1 U ⊤ = i = 1 ∑ r σ i 1 v i u i ⊤
这一构造直接揭示了伪逆的本质:在 A A A 的非零奇异方向(即行空间和列空间的交集)上按通常方式求逆,而在零奇异方向(即零空间成分)上映射为零。当 A A A 为可逆方阵时,Σ − 1 \Sigma^{-1} Σ − 1 即为通常的特征值倒数,A + = A − 1 A^+ = A^{-1} A + = A − 1 。
极限定义: 对于满秩情形,伪逆也可写为:
A + = lim δ → 0 ( A ⊤ A + δ 2 I ) − 1 A ⊤ = lim δ → 0 A ⊤ ( A A ⊤ + δ 2 I ) − 1 A^+ = \lim_{\delta \to 0} (A^\top A + \delta^2 I)^{-1} A^\top = \lim_{\delta \to 0} A^\top (A A^\top + \delta^2 I)^{-1} A + = δ → 0 lim ( A ⊤ A + δ 2 I ) − 1 A ⊤ = δ → 0 lim A ⊤ ( A A ⊤ + δ 2 I ) − 1
此即Tikhonov正则化 (岭回归)之极限形式,在数值计算与统计中反复出现。
特殊情形
列满秩(m ≥ n m \ge n m ≥ n ,rank = n \operatorname{rank}=n rank = n ): \[ A^+ = (A^\top A)^{-1} A^\top \] 这就是普通最小二乘中的正规方程 左乘矩阵,满足 A + A = I n A^+A = I_n A + A = I n 。行满秩(m ≤ n m \le n m ≤ n ,rank = m \operatorname{rank}=m rank = m ): \[ A^+ = A^\top (A A^\top)^{-1} \] 满足 A A + = I m AA^+ = I_m A A + = I m ,在欠定线性系统中给出最小欧几里得范数解。非奇异方阵: A + = A − 1 A^+ = A^{-1} A + = A − 1 ,四个条件退化为通常逆矩阵的性质。标量情形: 对 a ∈ R a \in \mathbb{R} a ∈ R ,若 a ≠ 0 a \neq 0 a = 0 则 a + = 1 / a a^+ = 1/a a + = 1/ a ;若 a = 0 a = 0 a = 0 则 0 + = 0 0^+ = 0 0 + = 0 。对角矩阵: 对于 Λ = diag ( λ 1 , … , λ n ) \Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n) Λ = diag ( λ 1 , … , λ n ) ,Λ + = diag ( λ 1 + , … , λ n + ) \Lambda^+ = \operatorname{diag}(\lambda_1^+, \ldots, \lambda_n^+) Λ + = diag ( λ 1 + , … , λ n + ) ,其中 λ + = 1 / λ \lambda^+ = 1/\lambda λ + = 1/ λ (当 λ ≠ 0 \lambda \neq 0 λ = 0 )否则为 0 0 0 。
核心应用:线性最小二乘
M–P 伪逆最核心的应用是求解线性方程组 A x = b A\mathbf{x} = \mathbf{b} A x = b 的最小二乘问题。无论方程组是超定、欠定还是秩亏,向量:
x ∗ = A + b \mathbf{x}^* = A^+ \mathbf{b} x ∗ = A + b
是以下问题的唯一最小欧几里得范数最小二乘解:在所有使得 ∥ A x − b ∥ 2 \|A\mathbf{x} - \mathbf{b}\|_2 ∥ A x − b ∥ 2 最小的 x \mathbf{x} x 中,x ∗ \mathbf{x}^* x ∗ 具有最小 ∥ x ∥ 2 \|\mathbf{x}\|_2 ∥ x ∥ 2 。换言之,A + A^+ A + 一次性同时解决了"尽量拟合"(最小二乘)和"尽量简洁"(最小范数)两个目标。
若 A A A 列满秩,A + = ( A ⊤ A ) − 1 A ⊤ A^+ = (A^\top A)^{-1}A^\top A + = ( A ⊤ A ) − 1 A ⊤ ,x ∗ \mathbf{x}^* x ∗ 即为经典的 OLS 估计量 β ^ = ( X ⊤ X ) − 1 X ⊤ y \hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \mathbf{y} β ^ = ( X ⊤ X ) − 1 X ⊤ y 。若 A A A 行满秩且方程组相容,A + b A^+ \mathbf{b} A + b 给出所有解中范数最小的那个——这正是支持向量机 中最大间隔求解和欠定系统分析的关键。
基本代数性质
( A + ) + = A ( A ⊤ ) + = ( A + ) ⊤ ( A + ) ⊤ = ( A ⊤ ) + ( λ A ) + = λ − 1 A + ( λ ≠ 0 ) A + = ( A ⊤ A ) + A ⊤ = A ⊤ ( A A ⊤ ) + rank ( A + ) = rank ( A ) \begin{aligned}
&(A^+)^+ = A && (A^\top)^+ = (A^+)^\top \\
&(A^+)^\top = (A^\top)^+ && (\lambda A)^+ = \lambda^{-1} A^+ \quad (\lambda \neq 0) \\
&A^+ = (A^\top A)^+ A^\top = A^\top (A A^\top)^+ && \operatorname{rank}(A^+) = \operatorname{rank}(A)
\end{aligned} ( A + ) + = A ( A + ) ⊤ = ( A ⊤ ) + A + = ( A ⊤ A ) + A ⊤ = A ⊤ ( A A ⊤ ) + ( A ⊤ ) + = ( A + ) ⊤ ( λ A ) + = λ − 1 A + ( λ = 0 ) rank ( A + ) = rank ( A )
值得留意的是,与通常逆矩阵不同,( A B ) + ≠ B + A + (AB)^+ \neq B^+ A^+ ( A B ) + = B + A + 一般不成立。仅当 A A A 列满秩且 B B B 行满秩等特定条件下才成立。
与其他广义逆的关系
在广义逆的谱系中,M–P 伪逆是限制最强的成员:
仅满足条件 (1) 的矩阵称为 \{1\}-逆或内逆 ,记为 A − A^- A − ,其不唯一,主要用于线性方程组相容性判定。 满足条件 (1) 和 (2) 的为 \{1,2\}-逆或自反广义逆 。 M–P 伪逆则同时满足全部四个条件,因此是唯一的 \{1,2,3,4\}-逆。正是对称条件 (3) 和 (4) 带来的正交投影性质,使 M–P 伪逆在最小二乘问题中脱颖而出。
统计与机器学习中的角色
在线性回归中,当设计矩阵 X X X 存在精确共线性(即 X ⊤ X X^\top X X ⊤ X 奇异),OLS 的解析解不再唯一,但 A + b A^+ \mathbf{b} A + b 在所有最小二乘解中给出系数向量 β ^ \hat{\boldsymbol{\beta}} β ^ 的最小 ℓ 2 \ell_2 ℓ 2 范数解——与岭回归 的极限情形和某些最小范数插值 现象紧密相关。在主成分回归 、偏最小二乘 和信号处理 (如反卷积)中,伪逆的截断 SVD 形式 ∑ i = 1 k σ i − 1 v i u i ⊤ \sum_{i=1}^{k} \sigma_i^{-1} \mathbf{v}_i \mathbf{u}_i^\top ∑ i = 1 k σ i − 1 v i u i ⊤ (取前 k k k 个奇异值)通过丢弃小奇异值实现了正则化,是噪声抑制的关键手段。
OLS(满秩): β ^ = ( X ⊤ X ) − 1 X ⊤ y = X + y 秩亏 OLS(最小范数): β ^ = X + y 截断 SVD 正则化: β ^ k = ∑ i = 1 k v i ⊤ y σ i u i \begin{aligned}
\text{OLS(满秩):}&\quad \hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \mathbf{y} = X^+ \mathbf{y} \\
\text{秩亏 OLS(最小范数):}&\quad \hat{\boldsymbol{\beta}} = X^+ \mathbf{y} \\
\text{截断 SVD 正则化:}&\quad \hat{\boldsymbol{\beta}}_k = \sum_{i=1}^{k} \frac{\mathbf{v}_i^\top \mathbf{y}}{\sigma_i} \mathbf{u}_i
\end{aligned} OLS (满秩): 秩亏 OLS (最小范数): 截断 SVD 正则化: β ^ = ( X ⊤ X ) − 1 X ⊤ y = X + y β ^ = X + y β ^ k = i = 1 ∑ k σ i v i ⊤ y u i
M–P 伪逆虽为纯粹的线性代数工具,却因其优雅的唯一性和正交投影结构,成为了从古典统计学到现代高维数据分析中连接理论代数与计算实践的桥梁。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。