知经 KNOWECON · 卓越的经济金融统计数学学习平台

半正定矩阵

# 半正定矩阵 (Positive Semi-definite Matrix)

半正定矩阵 (Positive Semi-definite Matrix, PSD) 是{{{线性代数}}}中一类非常重要的{{{Hermitian矩阵}}}(或实数域下的{{{对称矩阵}}})。它在{{{优化理论}}}、{{{统计学}}}、{{{控制理论}}}和{{{机器学习}}}等众多领域都有着核心的应用。理解半正定矩阵的定义、性质和判定方法是深入学习这些领域知识的基础。

一个矩阵是半正定的,直观上讲,意味着它所代表的{{{二次型}}}(quadratic form)对于任何非零向量的取值都是非负的。这可以看作是实数中"非负数"概念在矩阵领域的推广。

## 定义

对一个 $n \times n$ 的方阵 $M$ 的半正定性定义如下:

1. 复数域 (Complex Domain) 一个 $n \times n$ 的{{{Hermitian矩阵}}} $M$ (即满足 $M = M^*$,其中 $M^*$ 是 $M$ 的{{{共轭转置}}}) 被称为是 半正定的,如果对于所有非零向量 $z \in \mathbb{C}^n$,下式恒成立: $$ z^* M z \ge 0 $$ 这里的 $z^* M z$ 是一个实数,因为它等于其自身的共轭转置:$(z^* M z)^* = z^* M^* (z^*)^* = z^* M z$。

2. 实数域 (Real Domain) 一个 $n \times n$ 的{{{对称矩阵}}} $M$ (即满足 $M = M^T$,其中 $M^T$ 是 $M$ 的{{{转置}}}) 被称为是 半正定的,如果对于所有非零向量 $x \in \mathbb{R}^n$,下式恒成立: $$ x^T M x \ge 0 $$

注意:非Hermitian(或非对称)矩阵通常不讨论其正定性,因为其二次型 $x^T M x$ 可能不是实数(在复数域中),或者其性质不如对称矩阵那样清晰和有用。任何方阵 $A$ 的二次型都可以通过其对称部分 $\frac{1}{2}(A + A^T)$ 来表示,即 $x^T A x = x^T \frac{A+A^T}{2} x$。

## 等价条件与判定方法

判断一个Hermitian矩阵 $M$ 是否为半正定矩阵,除了直接使用定义外,还有许多等价的、在实践中更具操作性的条件。

#### 1. 特征值判据 (Eigenvalue Criterion) 一个Hermitian矩阵 $M$ 是半正定的,当且仅当它的所有{{{特征值}}} (Eigenvalues) 均为非负数。 $$ M \text{ is PSD } \iff \lambda_i(M) \ge 0 \quad \forall i=1, \ldots, n $$ 这是最常用和理论上最重要的判据。 逻辑解释: * ($\Rightarrow$) 假设 $M$ 是半正定的。令 $\lambda$ 为 $M$ 的一个特征值,对应的{{{特征向量}}}为 $v \neq 0$。根据定义,有 $v^* M v \ge 0$。同时,根据特征值的定义 $Mv = \lambda v$,我们有 $v^* M v = v^* (\lambda v) = \lambda (v^* v) = \lambda \|v\|^2$。因为 $v$ 是非零向量,$\|v\|^2 > 0$,所以必须有 $\lambda \ge 0$。 * ($\Leftarrow$) 假设 $M$ 的所有特征值 $\lambda_i \ge 0$。由于 $M$ 是Hermitian矩阵,它可以被{{{谱分解}}}为 $M = U \Lambda U^*$,其中 $U$ 是{{{酉矩阵}}}(其列为正交的特征向量),$\Lambda$ 是由特征值构成的对角矩阵。对于任意非零向量 $z$,我们有: $$ z^* M z = z^* (U \Lambda U^*) z = (U^*z)^* \Lambda (U^*z) $$ 令 $y = U^*z$。由于 $U$ 是可逆的,$z \neq 0$ 意味着 $y \neq 0$。则上式变为: $$ y^* \Lambda y = \sum_{i=1}^n \lambda_i |y_i|^2 $$ 因为 $\lambda_i \ge 0$ 且 $|y_i|^2 \ge 0$,所以它们的和 $y^* \Lambda y \ge 0$。因此,$z^*Mz \ge 0$,$M$ 是半正定矩阵。

#### 2. Cholesky分解 (Cholesky Decomposition) 一个Hermitian矩阵 $M$ 是半正定的,当且仅当它可以被分解为一个下三角矩阵 $L$ 与其共轭转置 $L^*$ 的乘积。 $$ M \text{ is PSD } \iff \exists L \text{ (lower triangular) such that } M = L L^* $$ 这种分解称为{{{Cholesky分解}}}。如果 $M$ 是{{{正定矩阵}}},则分解是唯一的。如果 $M$ 只是半正定矩阵,分解可能不唯一。这个方法在数值计算中非常有用,例如,在求解线性方程组或生成服从特定{{{多元正态分布}}}的随机数时。

#### 3. 主子式判据 (Principal Minor Criterion) 一个Hermitian矩阵 $M$ 是半正定的,当且仅当它的所有 主子式 (Principal Minors) 均为非负数。

* {{{主子式}}}:从矩阵 $M$ 中选取相同的行和列构成的子矩阵的行列式。例如,对于 $3 \times 3$ 矩阵,$\{ M_{11}, M_{22}, M_{33} \}$ 是一阶主子式,$\det\begin{pmatrix} M_{11} & M_{12} \\ M_{21} & M_{22} \end{pmatrix}$ 是一个二阶主子式。 * {{{顺序主子式}}} (Leading Principal Minor):仅由左上角 $k \times k$ 子矩阵构成的行列式,记为 $D_k$。

重要区别:对于{{{正定矩阵}}},我们只需要检查所有顺序主子式是否为正({{{Sylvester判据}}})。但对于半正定矩阵,检查所有顺序主子式非负是 不充分的。必须检查所有(共 $2^n - 1$ 个)主子式。

示例:考虑矩阵 $M = \begin{pmatrix} 0 & 0 \\ 0 & -1 \end{pmatrix}$。 其顺序主子式为 $D_1 = 0$ 和 $D_2 = \det(M) = 0$。两者都是非负的。 然而,该矩阵不是半正定的,因为它的特征值为 $0$ 和 $-1$,其中一个是负数。如果我们检查所有主子式,会发现二阶主子式 $M_{22} = -1$,它为负数,因此矩阵不是半正定的。

## 与正定矩阵的对比

| 特性 | 半正定矩阵 (PSD) | 正定矩阵 (PD) | | :--- | :--- | :--- | | 定义 | 对于所有 $x \neq 0$, $x^T M x \ge 0$ | 对于所有 $x \neq 0$, $x^T M x > 0$ | | 特征值 | 所有 $\lambda_i \ge 0$ | 所有 $\lambda_i > 0$ | | 行列式 | $\det(M) \ge 0$ (必要非充分) | $\det(M) > 0$ (Sylvester判据的一部分) | | 可逆性 | 可能奇异(不可逆),当且仅当至少有一个特征值为0 | 总是非奇异(可逆) | | 几何形状 ($x^T M x=1$) | {{{椭球体}}}或退化形式(如圆柱体、平面) | {{{椭球体}}} | | 主子式 | 所有主子式 $\ge 0$ | 所有顺序主子式 $> 0$ |

## 几何解释与凸性

二次型 $f(x) = x^T M x$ 定义了一个二次曲面。 * 如果 $M$ 是正定的,函数 $f(x)$ 是严格{{{凸函数}}},其形状像一个向上开口的碗,且在 $x=0$ 处有唯一的全局最小值。 * 如果 $M$ 是半正定的,函数 $f(x)$ 是{{{凸函数}}}。它仍然像一个向上开口的碗,但碗底可能是一个平面区域而不是一个点。这意味着最小值可能在无穷多个点上达到(这些点构成一个子空间,即 $M$ 的{{{核}}}(Null Space))。

这个凸性是半正定矩阵在{{{优化理论}}}中至关重要的原因。例如,在判断一个多元函数 $g(x)$ 的局部极小点时,其二阶必要条件是该点的{{{Hessian矩阵}}} $\nabla^2 g(x)$ 必须是半正定的。

## 主要应用

1. {{{协方差矩阵}}} (Covariance Matrix) 在{{{概率论}}}和{{{统计学}}}中,任何随机向量的协方差矩阵必定是半正定的。对于任意随机向量 $X$ 和常数向量 $a$,标量随机变量 $Y = a^T X$ 的方差为: $$ \text{Var}(Y) = \text{Var}(a^T X) = a^T \text{Cov}(X) a $$ 因为方差永远是非负的,所以 $a^T \text{Cov}(X) a \ge 0$ 恒成立,这正是协方差矩阵是半正定矩阵的定义。如果协方差矩阵中不存在线性相关性,它就是正定的。

2. {{{格拉姆矩阵}}} (Gram Matrix) 给定一组向量 $\{v_1, \ldots, v_n\}$,它们的格拉姆矩阵 $G$ 的元素定义为内积 $G_{ij} = \langle v_i, v_j \rangle$。格拉姆矩阵总是半正定的。它在{{{核方法}}} (Kernel Methods) 等机器学习技术中扮演着核心角色,其中核函数生成的核矩阵(即格拉姆矩阵)必须是半正定的。

3. {{{图论}}}中的{{{拉普拉斯矩阵}}} (Graph Laplacian) 图的拉普拉斯矩阵是半正定的。其特征值(特别是最小的非零特征值)包含了关于图连通性的重要信息。

## 常用性质总结

* 和与非负数乘: 如果 $A$ 和 $B$ 是PSD矩阵,则 $A+B$ 也是PSD的。如果 $c \ge 0$ 是一个非负实数,则 $cA$ 也是PSD的。所有PSD矩阵构成一个{{{凸锥}}}。 * 对角元素: PSD矩阵的对角元素 $M_{ii}$ 必须是非负的。 (令 $x = e_i$,即第$i$个标准基向量,则 $x^T M x = M_{ii} \ge 0$)。 * : PSD矩阵的{{{迹}}} (trace) $\text{Tr}(M) = \sum \lambda_i$ 必定是非负的。 * 矩阵合同变换: 如果 $M$ 是一个PSD矩阵,对于任意(不一定是方阵)矩阵 $A$,矩阵 $A^T M A$ (或复数域的 $A^* M A$)也是半正定的。