ARTICLE

对角化

对角化 (Diagonalization) 对角化 (Diagonalization) 是 线性代数 中最核心的矩阵分解技术之一。对于一个 n n 的 方阵 A,若存在一个 可逆矩阵 P 和一个 对角矩阵 D = diag( _1, _2, , _n),使得 则称 A 可对角化 (Diagonalizable),并称 P^-1AP = D 为 A 的 对角化

浏览 0 更新 2026-01-16

对角化 (Diagonalization)

对角化 (Diagonalization) 是 线性代数 中最核心的矩阵分解技术之一。对于一个 n×nn \times n方阵 AA,若存在一个 可逆矩阵 PP 和一个 对角矩阵 D=diag(λ1,λ2,,λn)D = \operatorname{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n),使得

P1AP=D,P^{-1}AP = D,

则称 AA 可对角化 (Diagonalizable),并称 P1AP=DP^{-1}AP = DAA对角化特征分解 (Eigendecomposition)。等价地,A=PDP1A = PDP^{-1},即 AA 被分解为三个结构简单的矩阵之积。

对角化的几何意义在于:它将线性变换 AA 的作用「解耦」为一组相互独立的方向上的伸缩——每个对角元 λi\lambda_i 恰好是沿对应特征向量方向的缩放因子。这使得对矩阵的幂运算、指数运算以及动态系统分析变得异常简洁。

可对角化的条件

矩阵对角化的充要条件与其 特征值特征向量 的结构密切相关。

AA 的特征多项式为 det(AλI)=0\det(A - \lambda I) = 0,其根 λ1,,λk\lambda_1, \ldots, \lambda_kknk \le n)为 AA 的互异特征值。对每个特征值 λi\lambda_i,定义两个关键量:

  • 代数重数 mim_iλi\lambda_i 作为特征多项式根的重数。
  • 几何重数 gig_iλi\lambda_i 对应的特征子空间 ker(AλiI)\ker(A - \lambda_i I) 的维数,即 λi\lambda_i 的线性无关特征向量的最大数目。

AA 可对角化的充要条件为以下任意一条:

  1. 对每个特征值 λi\lambda_i,其代数重数等于几何重数:gi=mig_i = m_i。这是最通用的判定准则。
  2. AA 拥有 nn 个线性无关的特征向量。这些特征向量作为 PP 的列向量,对应特征值填入 DD 的对角线。
  3. AA 的所有 nn 个特征值互异(即 k=nk = n),则 AA 必定可对角化。这是充分但非必要的条件。

需要警惕的是,代数重数大于几何重数(gi<mig_i < m_i)是矩阵不可对角化的标志。此时 AA 被称为亏损矩阵 (Defective Matrix),其特征向量不足以张成整个 Rn\mathbb{R}^n(或 Cn\mathbb{C}^n),必须借助 若尔当标准形 (Jordan Canonical Form) 来处理。

对角化的计算步骤

给定 n×nn \times n 方阵 AA,对角化的标准计算流程如下:

  1. 求解特征方程 det(AλI)=0\det(A - \lambda I) = 0,得到全部特征值 λ1,,λn\lambda_1, \ldots, \lambda_n(计重数)。
  2. 对每个特征值 λi\lambda_i,求解齐次线性方程组 (AλiI)x=0(A - \lambda_i I)\mathbf{x} = \mathbf{0},得到特征子空间的一组基,即线性无关的特征向量 vi1,vi2,,vigi\mathbf{v}_{i1}, \mathbf{v}_{i2}, \ldots, \mathbf{v}_{ig_i}
  3. 验证总特征向量数目:若 igi=n\sum_i g_i = n,则 AA 可对角化;否则不可对角化。
  4. 构造 P=[v1 v2  vn]P = [\mathbf{v}_1 \ \mathbf{v}_2 \ \cdots \ \mathbf{v}_n](将所有特征向量按列排列),构造 D=diag(λ1,,λn)D = \operatorname{diag}(\lambda_1, \ldots, \lambda_n),特征值与特征向量的列顺序严格对应。
  5. 验证 P1AP=DP^{-1}AP = D(或等价地 AP=PDAP = PD)。

实例:考虑

A=(2112).A = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix}.

特征方程 det(AλI)=(2λ)21=λ24λ+3=0\det(A - \lambda I) = (2-\lambda)^2 - 1 = \lambda^2 - 4\lambda + 3 = 0,得 λ1=1\lambda_1 = 1λ2=3\lambda_2 = 3(互异,故可对角化)。对应特征向量分别为 v1=(1,1)T\mathbf{v}_1 = (1, -1)^Tv2=(1,1)T\mathbf{v}_2 = (1, 1)^T。取

P=(1111),D=(1003),P = \begin{pmatrix} 1 & 1 \\ -1 & 1 \end{pmatrix}, \quad D = \begin{pmatrix} 1 & 0 \\ 0 & 3 \end{pmatrix},

P1AP=DP^{-1}AP = D

正交对角化与谱定理

AA实对称矩阵 时,对角化具有更强的结论。谱定理 (Spectral Theorem) 指出:对任意 n×nn \times n 实对称矩阵 AA,存在 正交矩阵 QQQT=Q1Q^T = Q^{-1})使得

QTAQ=D,Q^T A Q = D,

其中 DD 的对角元为 AA 的(全实数)特征值,QQ 的列为相互正交的单位特征向量。这一过程称为 正交对角化 (Orthogonal Diagonalization)。相比于一般的对角化,正交对角化额外保证了 P1=PTP^{-1} = P^T,在数值计算中更加稳定。

在复数域,厄米特矩阵 (Hermitian Matrix) 继承了相同的优良性质:存在 酉矩阵 UU 使得 UAU=DU^* A U = D,且所有特征值为实数。

核心应用

对角化在纯数学与应用学科中均有广泛用途。

  • 矩阵幂与指数:若 A=PDP1A = PDP^{-1},则 Ak=PDkP1A^k = P D^k P^{-1},对角矩阵的幂仅需对对角线元素分别求幂:Dk=diag(λ1k,,λnk)D^k = \operatorname{diag}(\lambda_1^k, \ldots, \lambda_n^k)。更一般地,矩阵指数 eA=PeDP1e^{A} = P e^{D} P^{-1},其中 eD=diag(eλ1,,eλn)e^{D} = \operatorname{diag}(e^{\lambda_1}, \ldots, e^{\lambda_n})。这在求解 线性微分方程组 x˙=Ax\dot{\mathbf{x}} = A\mathbf{x} 时至关重要。
  • 二次型与优化:对于 二次型 q(x)=xTAxq(\mathbf{x}) = \mathbf{x}^T A \mathbf{x}AA 对称),通过正交对角化 A=QDQTA = QDQ^T,令 y=QTx\mathbf{y} = Q^T \mathbf{x},则 q=yTDy=iλiyi2q = \mathbf{y}^T D \mathbf{y} = \sum_i \lambda_i y_i^2,二次型被化为无交叉项的规范形,其正定性由特征值的正负直接判定。这是 凸优化 和多元微积分中 Hesse矩阵 判定的理论基础。
  • 主成分分析 (PCA):在 多元统计分析 中,对 协方差矩阵 进行正交对角化(谱分解),特征值代表各主成分方向上的方差,特征向量给出主成分方向。保留前 kk 个最大特征值对应的主成分即可实现最优 降维
  • 马尔可夫链转移矩阵 的对角化可用于分析链的长期行为:平稳分布对应于特征值 1 的左特征向量,收敛速率由次大特征值模长决定。

不可对角化情况

并非所有方阵均可对角化。典型反例为 幂零矩阵 的若尔当块:

J=(λ10λ)J = \begin{pmatrix} \lambda & 1 \\ 0 & \lambda \end{pmatrix}

仅有特征值 λ\lambda(代数重数 2),但特征子空间维数仅为 1(几何重数 1)。此时不存在两个线性无关的特征向量,矩阵不可对角化。这类矩阵需借助 若尔当标准形 A=PJP1A = P J P^{-1} 来刻画,其中 JJ 为块对角矩阵,每个若尔当块在对角线上方有一个上对角线 1。若尔当标准形保留了对角化的核心思想——将矩阵分解为尽可能简单的标准形式,是对角化理论的自然延伸。