知经 KNOWECON · 卓越的经济金融统计数学学习平台

正定矩阵

# 正定矩阵 (Positive Definite Matrix)

正定矩阵 (Positive Definite Matrix) 是{{{线性代数}}}中的一个核心概念,特指一类具有良好性质的{{{Hermitian matrix}}}(在实数域上则为{{{symmetric matrix}}})。一个矩阵被称为正定的,如果它与任何非零向量的“二次型”运算结果恒为正。这个概念在{{{最优化理论}}}、{{{统计学}}}、{{{数值分析}}}和{{{物理学}}}等领域中扮演着至关重要的角色。

严格来说,一个 $n \times n$ 的埃尔米特矩阵 $A$ (对于实数域,则为对称矩阵) 是 正定 的,如果对于所有非零的复向量 $x \in \mathbb{C}^n$ (对于实数域,则为 $x \in \mathbb{R}^n$ 且 $x \neq 0$),都满足以下条件:

$$ x^{*} A x > 0 $$

其中,$x^*$ 表示向量 $x$ 的{{{共轭转置}}}(conjugate transpose),在实数域中即为{{{转置}}} $x^T$。因此,对于实对称矩阵 $A$,其正定性条件为:

$$ x^T A x > 0 \quad \text{for all } x \in \mathbb{R}^n, x \neq 0 $$

表达式 $x^T A x$ 被称为矩阵 $A$ 的 {{{quadratic form|二次型}}}。因此,一个实对称矩阵是正定的,当且仅当它的二次型对于任何非零实向量都取正值。

注意:非对称矩阵也可以定义正定性(即 $x^T A x > 0$),但其性质主要由其对称部分 $\frac{1}{2}(A + A^T)$ 决定。因此,在讨论正定性时,通常默认研究的对象是{{{对称矩阵}}}或{{{Hermitian matrix}}}。

## 直观理解与类比

理解正定矩阵最有效的方式是将其类比为 正实数。在标量世界中,正数具有诸多优良特性(如存在正的平方根、其倒数也为正等)。正定矩阵就是这些特性在{{{矩阵}}}世界中的推广。

* “正值”的推广:一个正数 $a$ 乘以任何非零数的平方 $x^2$ 总是正的(即 $ax^2 > 0$)。类似地,一个正定矩阵 $A$ 与任何非零向量 $x$ 作用产生的二次型 $x^T A x$ 总是正的。这个二次型可以被看作是{{{向量}}}在由矩阵 $A$ 定义的几何空间中的“能量”或“长度的平方”。

* “平方根”的推广:任何正数都有一个正的平方根。类似地,任何正定矩阵 $A$ 都有唯一的正定“平方根”矩阵 $B$ 使得 $A = B^2$。更常用的是,它存在唯一的{{{Cholesky decomposition}}},即 $A = LL^T$,其中 $L$ 是一个对角线元素为正的{{{下三角矩阵}}}。这可以看作是矩阵的“平方根”分解,在数值计算中极为重要。

## 正定性的等价条件

在实践中,直接使用定义 $x^T A x > 0$ 来检验一个矩阵的正定性是困难的,因为它要求对所有非零向量 $x$ 进行验证。幸运的是,存在多个等价的、更易于操作的判断准则。对于一个 $n \times n$ 的实对称矩阵 $A$,以下条件是等价的:

1. 所有{{{eigenvalues|特征值}}}均为正:矩阵 $A$ 的所有 $n$ 个特征值 $\lambda_1, \lambda_2, \ldots, \lambda_n$ 都大于零。这是理论上最重要和最根本的属性。 * 解释:由于 $A$ 是对称的,它可以被{{{谱分解}}}为 $A = PDP^T$,其中 $P$ 是由{{{eigenvectors|特征向量}}}构成的{{{正交矩阵}}},$D$ 是由对应特征值构成的{{{对角矩阵}}}。那么二次型可以写作: $$ x^T A x = x^T (PDP^T) x = (P^T x)^T D (P^T x) $$ 令 $y = P^T x$。由于 $P$ 可逆, $x \neq 0$ 当且仅当 $y \neq 0$。于是上式变为: $$ y^T D y = \sum_{i=1}^n \lambda_i y_i^2 $$ 为了使该和式对于任何非零向量 $y$ 都为正,当且仅当所有的系数 $\lambda_i$ 都必须为正。

2. 所有顺序主子式均为正 (Sylvester's Criterion):矩阵 $A$ 的所有{{{leading principal minors|顺序主子式}}}的{{{determinant|行列式}}}都大于零。 * 定义:顺序主子式是指由矩阵 $A$ 的左上角 $k \times k$ 子矩阵 $(k=1, 2, \ldots, n)$ 构成的方阵。记其行列式为 $\Delta_k$。 $$ \Delta_1 = |a_{11}|, \quad \Delta_2 = \begin{vmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{vmatrix}, \quad \ldots, \quad \Delta_n = |A| $$ * 准则:$A$ 是正定的当且仅当 $\Delta_k > 0$ 对所有的 $k=1, 2, \ldots, n$ 成立。这是一个非常实用的计算判据。

3. 存在唯一的{{{Cholesky decomposition}}}:矩阵 $A$ 可以被唯一地分解为 $A = LL^T$,其中 $L$ 是一个对角线元素全为正的{{{下三角矩阵}}}。这种分解的存在性是 $A$ 为正定矩阵的充要条件。

4. 矩阵可逆且其逆矩阵也为正定:如果 $A$ 是正定的,那么它的所有特征值都为正,因此特征值之积(即行列式)也为正,所以 $A$ 是{{{invertible matrix|可逆的}}}。其逆矩阵 $A^{-1}$ 的特征值为 $1/\lambda_i$,也都为正,因此 $A^{-1}$ 也是正定的。

## 相关概念

正定矩阵是一系列“定性”矩阵中的一种。根据二次型 $x^T A x$ 的符号,我们有如下分类:

* {{{Positive-semidefinite matrix|正半定矩阵}}} (Positive Semi-definite Matrix):如果对于所有非零向量 $x$,有 $x^T A x \ge 0$。这等价于矩阵的所有{{{eigenvalues|特征值}}}均为 非负数 ($\ge 0$)。正半定矩阵不一定是可逆的(当它有零特征值时)。

* {{{Negative-definite matrix|负定矩阵}}} (Negative Definite Matrix):如果对于所有非零向量 $x$,有 $x^T A x < 0$。这等价于所有特征值均为 负数 ($< 0$)。

* {{{Negative-semidefinite matrix|负半定矩阵}}} (Negative Semi-definite Matrix):如果对于所有非零向量 $x$,有 $x^T A x \le 0$。这等价于所有特征值均为 非正数 ($\le 0$)。

* 不定矩阵 (Indefinite Matrix):如果 $x^T A x$ 的值既可以为正也可以为负,这取决于向量 $x$ 的选择。这等价于矩阵既有正特征值也有负特征值。

## 应用领域

正定矩阵的概念之所以重要,是因为它在众多学科中都有着深刻的应用。

* {{{最优化理论}}}:在多元函数的{{{微积分}}}中,一个函数的{{{Hessian matrix|黑塞矩阵}}}(二阶偏导数组成的矩阵)在某一点的正定性,是判断该点为{{{局部最小值}}}的充分条件。这可以看作是单变量函数中二阶导数 $f''(x) > 0$ 判别法的推广。

* {{{统计学}}}与{{{经济计量学}}}:一个{{{multivariate random variable|多维随机变量}}}的{{{Covariance matrix|协方差矩阵}}}理论上总是 正半定 的。如果变量之间不存在{{{multicollinearity|多重共线性}}},那么协方差矩阵就是 正定 的。这反映了方差(或广义方差)不可能是负数的基本事实。

* {{{机器学习}}}:在{{{kernel methods|核方法}}}(如{{{Support Vector Machines|支持向量机}}})中,{{{Gram matrix|格拉姆矩阵}}}(或核矩阵)必须是正半定的,这是确保所定义的核函数能够映射到一个合法的{{{希尔伯特空间}}}的必要条件。

* {{{数值分析}}}:在求解线性方程组 $Ax = b$ 时,如果 $A$ 是一个正定矩阵,那么可以使用如{{{Cholesky decomposition}}}或{{{共轭梯度法}}}等非常高效且数值稳定的算法进行求解。