对角化 (Diagonalization)
对角化 (Diagonalization) 是 线性代数 中最核心的矩阵分解技术之一。对于一个 n × n n \times n n × n 的 方阵 A A A ,若存在一个 可逆矩阵 P P P 和一个 对角矩阵 D = diag ( λ 1 , λ 2 , … , λ n ) D = \operatorname{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n) D = diag ( λ 1 , λ 2 , … , λ n ) ,使得
P − 1 A P = D , P^{-1}AP = D, P − 1 A P = D ,
则称 A A A 可对角化 (Diagonalizable),并称 P − 1 A P = D P^{-1}AP = D P − 1 A P = D 为 A A A 的 对角化 或 特征分解 (Eigendecomposition)。等价地,A = P D P − 1 A = PDP^{-1} A = P D P − 1 ,即 A A A 被分解为三个结构简单的矩阵之积。
对角化的几何意义在于:它将线性变换 A A A 的作用「解耦」为一组相互独立的方向上的伸缩——每个对角元 λ i \lambda_i λ i 恰好是沿对应特征向量方向的缩放因子。这使得对矩阵的幂运算、指数运算以及动态系统分析变得异常简洁。
可对角化的条件
矩阵对角化的充要条件与其 特征值 和 特征向量 的结构密切相关。
设 A A A 的特征多项式为 det ( A − λ I ) = 0 \det(A - \lambda I) = 0 det ( A − λ I ) = 0 ,其根 λ 1 , … , λ k \lambda_1, \ldots, \lambda_k λ 1 , … , λ k (k ≤ n k \le n k ≤ n )为 A A A 的互异特征值。对每个特征值 λ i \lambda_i λ i ,定义两个关键量:
代数重数 m i m_i m i :λ i \lambda_i λ i 作为特征多项式根的重数。几何重数 g i g_i g i :λ i \lambda_i λ i 对应的特征子空间 ker ( A − λ i I ) \ker(A - \lambda_i I) ker ( A − λ i I ) 的维数,即 λ i \lambda_i λ i 的线性无关特征向量的最大数目。
A A A 可对角化的充要条件 为以下任意一条:
对每个特征值 λ i \lambda_i λ i ,其代数重数等于几何重数:g i = m i g_i = m_i g i = m i 。这是最通用的判定准则。 A A A 拥有 n n n 个线性无关的特征向量。这些特征向量作为 P P P 的列向量,对应特征值填入 D D D 的对角线。若 A A A 的所有 n n n 个特征值互异(即 k = n k = n k = n ),则 A A A 必定可对角化。这是充分但非必要的条件。
需要警惕的是,代数重数大于几何重数(g i < m i g_i < m_i g i < m i )是矩阵不可对角化的标志。此时 A A A 被称为亏损矩阵 (Defective Matrix),其特征向量不足以张成整个 R n \mathbb{R}^n R n (或 C n \mathbb{C}^n C n ),必须借助 若尔当标准形 (Jordan Canonical Form) 来处理。
对角化的计算步骤
给定 n × n n \times n n × n 方阵 A A A ,对角化的标准计算流程如下:
求解特征方程 det ( A − λ I ) = 0 \det(A - \lambda I) = 0 det ( A − λ I ) = 0 ,得到全部特征值 λ 1 , … , λ n \lambda_1, \ldots, \lambda_n λ 1 , … , λ n (计重数)。 对每个特征值 λ i \lambda_i λ i ,求解齐次线性方程组 ( A − λ i I ) x = 0 (A - \lambda_i I)\mathbf{x} = \mathbf{0} ( A − λ i I ) x = 0 ,得到特征子空间的一组基,即线性无关的特征向量 v i 1 , v i 2 , … , v i g i \mathbf{v}_{i1}, \mathbf{v}_{i2}, \ldots, \mathbf{v}_{ig_i} v i 1 , v i 2 , … , v i g i 。 验证总特征向量数目:若 ∑ i g i = n \sum_i g_i = n ∑ i g i = n ,则 A A A 可对角化;否则不可对角化。 构造 P = [ v 1 v 2 ⋯ v n ] P = [\mathbf{v}_1 \ \mathbf{v}_2 \ \cdots \ \mathbf{v}_n] P = [ v 1 v 2 ⋯ v n ] (将所有特征向量按列排列),构造 D = diag ( λ 1 , … , λ n ) D = \operatorname{diag}(\lambda_1, \ldots, \lambda_n) D = diag ( λ 1 , … , λ n ) ,特征值与特征向量的列顺序严格对应。 验证 P − 1 A P = D P^{-1}AP = D P − 1 A P = D (或等价地 A P = P D AP = PD A P = P D )。
实例 :考虑
A = ( 2 1 1 2 ) . A = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix}. A = ( 2 1 1 2 ) .
特征方程 det ( A − λ I ) = ( 2 − λ ) 2 − 1 = λ 2 − 4 λ + 3 = 0 \det(A - \lambda I) = (2-\lambda)^2 - 1 = \lambda^2 - 4\lambda + 3 = 0 det ( A − λ I ) = ( 2 − λ ) 2 − 1 = λ 2 − 4 λ + 3 = 0 ,得 λ 1 = 1 \lambda_1 = 1 λ 1 = 1 ,λ 2 = 3 \lambda_2 = 3 λ 2 = 3 (互异,故可对角化)。对应特征向量分别为 v 1 = ( 1 , − 1 ) T \mathbf{v}_1 = (1, -1)^T v 1 = ( 1 , − 1 ) T ,v 2 = ( 1 , 1 ) T \mathbf{v}_2 = (1, 1)^T v 2 = ( 1 , 1 ) T 。取
P = ( 1 1 − 1 1 ) , D = ( 1 0 0 3 ) , P = \begin{pmatrix} 1 & 1 \\ -1 & 1 \end{pmatrix}, \quad D = \begin{pmatrix} 1 & 0 \\ 0 & 3 \end{pmatrix}, P = ( 1 − 1 1 1 ) , D = ( 1 0 0 3 ) ,
则 P − 1 A P = D P^{-1}AP = D P − 1 A P = D 。
正交对角化与谱定理
当 A A A 是 实对称矩阵 时,对角化具有更强的结论。谱定理 (Spectral Theorem) 指出:对任意 n × n n \times n n × n 实对称矩阵 A A A ,存在 正交矩阵 Q Q Q (Q T = Q − 1 Q^T = Q^{-1} Q T = Q − 1 )使得
Q T A Q = D , Q^T A Q = D, Q T A Q = D ,
其中 D D D 的对角元为 A A A 的(全实数)特征值,Q Q Q 的列为相互正交的单位特征向量。这一过程称为 正交对角化 (Orthogonal Diagonalization)。相比于一般的对角化,正交对角化额外保证了 P − 1 = P T P^{-1} = P^T P − 1 = P T ,在数值计算中更加稳定。
在复数域,厄米特矩阵 (Hermitian Matrix) 继承了相同的优良性质:存在 酉矩阵 U U U 使得 U ∗ A U = D U^* A U = D U ∗ A U = D ,且所有特征值为实数。
核心应用
对角化在纯数学与应用学科中均有广泛用途。
矩阵幂与指数 :若 A = P D P − 1 A = PDP^{-1} A = P D P − 1 ,则 A k = P D k P − 1 A^k = P D^k P^{-1} A k = P D k P − 1 ,对角矩阵的幂仅需对对角线元素分别求幂:D k = diag ( λ 1 k , … , λ n k ) D^k = \operatorname{diag}(\lambda_1^k, \ldots, \lambda_n^k) D k = diag ( λ 1 k , … , λ n k ) 。更一般地,矩阵指数 e A = P e D P − 1 e^{A} = P e^{D} P^{-1} e A = P e D P − 1 ,其中 e D = diag ( e λ 1 , … , e λ n ) e^{D} = \operatorname{diag}(e^{\lambda_1}, \ldots, e^{\lambda_n}) e D = diag ( e λ 1 , … , e λ n ) 。这在求解 线性微分方程组 x ˙ = A x \dot{\mathbf{x}} = A\mathbf{x} x ˙ = A x 时至关重要。二次型与优化 :对于 二次型 q ( x ) = x T A x q(\mathbf{x}) = \mathbf{x}^T A \mathbf{x} q ( x ) = x T A x (A A A 对称),通过正交对角化 A = Q D Q T A = QDQ^T A = Q D Q T ,令 y = Q T x \mathbf{y} = Q^T \mathbf{x} y = Q T x ,则 q = y T D y = ∑ i λ i y i 2 q = \mathbf{y}^T D \mathbf{y} = \sum_i \lambda_i y_i^2 q = y T D y = ∑ i λ i y i 2 ,二次型被化为无交叉项的规范形,其正定性由特征值的正负直接判定。这是 凸优化 和多元微积分中 Hesse矩阵 判定的理论基础。主成分分析 (PCA) :在 多元统计分析 中,对 协方差矩阵 进行正交对角化(谱分解),特征值代表各主成分方向上的方差,特征向量给出主成分方向。保留前 k k k 个最大特征值对应的主成分即可实现最优 降维 。马尔可夫链 :转移矩阵 的对角化可用于分析链的长期行为:平稳分布对应于特征值 1 的左特征向量,收敛速率由次大特征值模长决定。
不可对角化情况
并非所有方阵均可对角化。典型反例为 幂零矩阵 的若尔当块:
J = ( λ 1 0 λ ) J = \begin{pmatrix} \lambda & 1 \\ 0 & \lambda \end{pmatrix} J = ( λ 0 1 λ )
仅有特征值 λ \lambda λ (代数重数 2),但特征子空间维数仅为 1(几何重数 1)。此时不存在两个线性无关的特征向量,矩阵不可对角化。这类矩阵需借助 若尔当标准形 A = P J P − 1 A = P J P^{-1} A = P J P − 1 来刻画,其中 J J J 为块对角矩阵,每个若尔当块在对角线上方有一个上对角线 1。若尔当标准形保留了对角化的核心思想——将矩阵分解为尽可能简单的标准形式,是对角化理论的自然延伸。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。