ARTICLE

半定矩阵

半定矩阵(Semidefinite Matrix)是线性代数中一类具有特殊结构的重要矩阵,广泛应用于凸优化、统计学、信号处理、量子力学等领域。一个对称(或 Hermitian)实方阵被称为半定矩阵,当且仅当它的所有特征值均同号(非负或非正),即对应的二次型对所有非零向量保持一致的符号方向。 正式定义 设 A R^n n 为对称矩阵(或 A 为 Hermiti

浏览 0 更新 2025-10-26

半定矩阵(Semidefinite Matrix)是线性代数中一类具有特殊结构的重要矩阵,广泛应用于凸优化、统计学、信号处理、量子力学等领域。一个对称(或 Hermitian)实方阵被称为半定矩阵,当且仅当它的所有特征值均同号(非负或非正),即对应的二次型对所有非零向量保持一致的符号方向。

正式定义

ARn×n A \in \mathbb{R}^{n \times n} 为对称矩阵(或 A A 为 Hermitian 矩阵)。若对任意非零向量 xRn x \in \mathbb{R}^n ,二次型 xTAx x^T A x 满足:

  • 正半定(Positive Semidefinite, PSD):xTAx0 x^T A x \geq 0 ,记作 A0 A \succeq 0
  • 负半定(Negative Semidefinite, NSD):xTAx0 x^T A x \leq 0 ,记作 A0 A \preceq 0

若严格不等式成立且 x0 x \neq 0 ,则分别为正定矩阵(A0 A \succ 0 )和负定矩阵(A0 A \prec 0 ),两者统称为定号矩阵。半定则是定号条件的松弛——允许在非零方向上二次型取值恰好为零。

特征值刻画

对于实对称矩阵 A A ,其所有特征值均为实数,半定性可由特征值符号直接判定:

  • A A 正半定      \iff 所有特征值 λi(A)0 \lambda_i(A) \geq 0
  • A A 负半定      \iff 所有特征值 λi(A)0 \lambda_i(A) \leq 0

等价地,秩亏的情形也纳入半定范畴——正半定矩阵允许零特征值,而正定矩阵要求全部特征值严格为正。这一区别在数值分析和优化理论中至关重要,因为许多实际问题(如协方差矩阵在样本量不足时)自然产生半定而非定号的矩阵。

主矩子式判据

除了特征值判据,Sylvester 判据的推广也可用于半定性的判定,但需注意:正半定矩阵不要求所有顺序主子式非负(仅对正定成立),而是要求所有主矩子式非负(不仅限于顺序主子式)。具体地,ARn×n A \in \mathbb{R}^{n \times n} 正半定当且仅当其所有 2n1 2^n - 1 个主矩子式的行列式均非负。这一判据复杂度高,实践中多采用特征值分解或 Cholesky 分解的变体进行判定。

Cholesky 分解与平方根

正半定矩阵的一个核心性质是存在 Cholesky 分解:A=LLT A = L L^T ,其中 L L 为下三角矩阵(可能秩亏)。对于秩 r<n r < n 的正半定矩阵,L L 的最后 nr n-r 列为零。更一般地,任何正半定矩阵可写为 A=BTB A = B^T B (或 A=BBT A = B B^T ),其中 BRm×n B \in \mathbb{R}^{m \times n} 。反过来,任何形如 BTB B^T B 的矩阵自动正半定——这一构造在最小二乘问题中频繁出现,设计矩阵 X X 产生的 Gram 矩阵 XTX X^T X 总是正半定的。

半定锥与凸性

所有 n×n n \times n 正半定矩阵构成的集合 S+n \mathcal{S}_+^n 是一个自对偶齐次凸锥(self-dual homogeneous convex cone),嵌入在对称矩阵空间 Sn \mathbb{S}^n 中。这一几何结构是半定规划(Semidefinite Programming, SDP)的理论基础。SDP 是线性规划在矩阵变量上的推广,标准形式为:

minX C,Xs.t. Ai,X=bi,i=1,,mX0,\begin{aligned} \min_X \ & \langle C, X \rangle \\ \text{s.t.} \ & \langle A_i, X \rangle = b_i, \quad i = 1, \ldots, m \\ & X \succeq 0, \end{aligned}

其中 , \langle \cdot, \cdot \rangle 为 Frobenius 内积,约束 X0 X \succeq 0 表示 X X 属于正半定锥。SDP 具有多项式时间可解性(内点法),广泛应用于组合优化松弛、控制理论中的线性矩阵不等式(LMI)、以及机器学习中的核方法。

应用场景

统计学与概率:协方差矩阵 Σ=E[(Xμ)(Xμ)T] \Sigma = \mathbb{E}[(X - \mu)(X - \mu)^T] 天然正半定。在高维统计中,样本协方差矩阵 Σ^=1nXTX \hat{\Sigma} = \frac{1}{n} X^T X 的正半定性保证了 Mahalanobis 距离的良定义性(在秩亏时退化为半范数)。

力学与振动分析:刚度矩阵 K K 和质量矩阵 M M 在有限元方法中通常正半定,其广义特征值问题 Kϕ=λMϕ K\phi = \lambda M\phi 描述系统自然频率。K K 的零特征值对应刚体运动模式。

图论:图的 Laplacian 矩阵 L=DA L = D - A D D 为度矩阵,A A 为邻接矩阵)总是正半定,其第二小特征值(代数连通度)刻画图的连通性。Laplacian 的 Moore-Penrose 伪逆与有效电阻矩阵密切相关。

量子信息:量子态的密度矩阵 ρ \rho 必须正半定且迹为 1。纠缠判据(如 PPT 准则)直接依赖部分转置矩阵的半定性。

机器学习:核矩阵(Gram 矩阵)Kij=k(xi,xj) K_{ij} = k(x_i, x_j) 的正半定性是 Mercer 核函数的必要条件。高斯过程回归中协方差核的正半定性保证预测方差的非负性。

与相关概念的关系

  • 正定矩阵:正定是正半定的真子集,排除零特征值,保证可逆性。
  • 非负矩阵:指元素非负的矩阵(Perron-Frobenius 理论),与半定无关——元素符号和特征值符号是独立概念。
  • 对角占优矩阵:对称严格对角占优且对角元为正      \implies 正定,但对角占优并非半定的必要条件。
  • M 矩阵:可逆 M 矩阵的对称情形恰为正定矩阵的逆(若 A A 对称正定,则 A1 A^{-1} 为对称 M 矩阵)。

常见误区

  1. 混淆半定性与元素非负性:元素全部非负的矩阵不一定是半定的,半定矩阵也不一定元素非负(例如 (1221) \begin{pmatrix} 1 & -2 \\ -2 & 1 \end{pmatrix} 既非正半定也非负半定,因其特征值为 1,3 -1, 3 )。
  2. 混淆半定与对角占优:对角占优且对角元为正的对称矩阵确实是正定的,但大量正半定矩阵并不对角占优,反之亦然。
  3. 误以为 A0 A \succeq 0 必然可逆:秩亏的正半定矩阵不可逆,只能使用伪逆或正则化(如 A+ϵI A + \epsilon I )。
  4. 滥用顺序主子式判据:仅所有顺序主子式非负不足以判定正半定性(反例:(0001) \begin{pmatrix} 0 & 0 \\ 0 & -1 \end{pmatrix} 顺序主子式均为 0 0 0 0 但非正半定),必须验证所有主矩子式。

历史注记

半定矩阵的系统研究可追溯至 19 世纪 Cauchy、Sylvester 等人对二次型的分类工作。20 世纪中叶,随着线性规划与数值分析的发展,半定锥的结构性质受到重视。1990 年代 Nesterov 与 Nemirovski 建立半定规划的内点法理论后,半定矩阵成为凸优化领域的核心工具,并逐步渗透至组合优化、控制工程与机器学习。

数值判定方法

实际计算中,直接使用特征值分解判定半定性代价较高(O(n3) O(n^3) )。更实用的方案是对称矩阵的 LDLT LDL^T 分解:若对角矩阵 D D 的所有元素非负,则原矩阵正半定。对于大规模稀疏矩阵,可利用不完全 Cholesky 分解或 Lanczos 方法估计特征值范围。在浮点运算中,由于舍入误差,需引入容差 τ \tau (如 1012 10^{-12} )来判断接近零的特征值符号——这也正是半定与定号在数值层面的模糊地带。当矩阵接近秩亏时,正则化技术(如 A+λI A + \lambda I 或截断 SVD)常用于稳定后续计算,尤其在高维统计的精度矩阵估计中不可或缺。