矩阵的迹 (trace)是线性代数中定义在方阵上的一个基本标量函数,记为 tr ( A ) \operatorname{tr}(A) tr ( A ) ,定义为矩阵主对角线上所有元素之和。对于 n × n n \times n n × n 矩阵 A = ( a i j ) A = (a_{ij}) A = ( a ij ) ,其迹为 tr ( A ) = ∑ i = 1 n a i i \operatorname{tr}(A) = \sum_{i=1}^{n} a_{ii} tr ( A ) = ∑ i = 1 n a ii 。迹是一个线性泛函,不仅在矩阵理论中占据核心地位,还在微分几何、量子力学、统计力学和机器学习等领域有着广泛应用。迹的概念虽然简单,却蕴含着深刻的理论意义,它连接了矩阵的代数结构、几何变换和谱性质。理解迹对于掌握整个线性代数体系具有重要的启发意义。
基本性质
迹满足以下基本代数性质。设 A , B A, B A , B 为 n × n n \times n n × n 方阵,α \alpha α 为标量:
线性性 :迹是一个线性映射,即 tr ( A + B ) = tr ( A ) + tr ( B ) \operatorname{tr}(A + B) = \operatorname{tr}(A) + \operatorname{tr}(B) tr ( A + B ) = tr ( A ) + tr ( B ) ,且 tr ( α A ) = α tr ( A ) \operatorname{tr}(\alpha A) = \alpha \operatorname{tr}(A) tr ( α A ) = α tr ( A ) 。这意味着所有同阶方阵的迹构成一个线性泛函空间。转置不变性 :tr ( A T ) = tr ( A ) \operatorname{tr}(A^{\mathsf{T}}) = \operatorname{tr}(A) tr ( A T ) = tr ( A ) ,因为转置仅将行与列互换,对角元素保持不变。共轭转置 :对于复矩阵,tr ( A † ) = tr ( A ) ‾ \operatorname{tr}(A^{\dagger}) = \overline{\operatorname{tr}(A)} tr ( A † ) = tr ( A ) ,其中 † \dagger † 表示共轭转置,上划线表示复共轭。
循环不变性
迹最重要且最深刻的性质是循环不变性:tr ( A B ) = tr ( B A ) \operatorname{tr}(AB) = \operatorname{tr}(BA) tr ( A B ) = tr ( B A ) 。这一性质可以推广到多个矩阵的乘积:对任意相容维度的矩阵 A , B , C A, B, C A , B , C ,有
tr ( A B C ) = tr ( B C A ) = tr ( C A B ) . \operatorname{tr}(ABC) = \operatorname{tr}(BCA) = \operatorname{tr}(CAB). tr ( A BC ) = tr ( BC A ) = tr ( C A B ) .
但需特别注意,tr ( A B C ) ≠ tr ( A C B ) \operatorname{tr}(ABC) \neq \operatorname{tr}(ACB) tr ( A BC ) = tr ( A CB ) 一般成立,即只有循环置换保持迹不变,非循环置换会改变结果。例如在三维情形下,tr ( A B C ) = tr ( C A B ) = tr ( B C A ) \operatorname{tr}(ABC) = \operatorname{tr}(CAB) = \operatorname{tr}(BCA) tr ( A BC ) = tr ( C A B ) = tr ( BC A ) ,但一般不等于 tr ( A C B ) \operatorname{tr}(ACB) tr ( A CB ) 。循环不变性的一个直接推论是迹在相似变换下不变:若 P P P 可逆,则 tr ( P − 1 A P ) = tr ( A ) \operatorname{tr}(P^{-1}AP) = \operatorname{tr}(A) tr ( P − 1 A P ) = tr ( A ) 。这进一步说明迹是矩阵的相似不变量,即所有相似矩阵都共享同一迹值,这与行列式一样都是相似等价类的重要标识。
与特征值的关系
迹与矩阵的特征值有着密切联系,这是线性代数中最核心的结果之一。设 n × n n \times n n × n 矩阵 A A A 的特征值为 λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2, \dots, \lambda_n λ 1 , λ 2 , … , λ n (计代数重数),则:
tr ( A ) = ∑ i = 1 n λ i . \operatorname{tr}(A) = \sum_{i=1}^{n} \lambda_i. tr ( A ) = i = 1 ∑ n λ i .
这一结论可以从特征多项式的展开中直接导出。矩阵 A A A 的特征多项式为
det ( λ I − A ) = λ n − ( tr A ) λ n − 1 + ⋯ + ( − 1 ) n det A , \det(\lambda I - A) = \lambda^n - (\operatorname{tr} A)\,\lambda^{n-1} + \cdots + (-1)^n \det A, det ( λ I − A ) = λ n − ( tr A ) λ n − 1 + ⋯ + ( − 1 ) n det A ,
其中 λ n − 1 \lambda^{n-1} λ n − 1 的系数恰为 − tr ( A ) -\operatorname{tr}(A) − tr ( A ) 。由于特征多项式的根就是特征值,由韦达定理可知根之和等于 λ n − 1 \lambda^{n-1} λ n − 1 系数的相反数,即 tr ( A ) \operatorname{tr}(A) tr ( A ) 。类似地,常数项给出行列式与特征值的关系:det ( A ) = ∏ i = 1 n λ i \det(A) = \prod_{i=1}^{n} \lambda_i det ( A ) = ∏ i = 1 n λ i 。因此,迹与行列式共同构成了特征多项式中最重要的两个系数,分别反映了特征值的和与积。
矩阵的导数和微分
在矩阵微积分中,迹是一个极其便利的工具。许多矩阵函数的导数可以用迹简洁地表达。例如,对于标量函数 f ( X ) = tr ( A X ) f(X) = \operatorname{tr}(AX) f ( X ) = tr ( A X ) ,其梯度为 ∂ f ∂ X = A T \frac{\partial f}{\partial X} = A^{\mathsf{T}} ∂ X ∂ f = A T 。更一般地,对于 f ( X ) = tr ( X T A X ) f(X) = \operatorname{tr}(X^{\mathsf{T}} A X) f ( X ) = tr ( X T A X ) ,有 ∂ f ∂ X = ( A + A T ) X \frac{\partial f}{\partial X} = (A + A^{\mathsf{T}}) X ∂ X ∂ f = ( A + A T ) X 。这些公式在机器学习中的线性回归、主成分分析、神经网络反向传播和深度学习优化中频繁出现,是矩阵求导课程中的标准内容。
迹的微分性质还体现在行列式的对数导数中:∂ ∂ t log det ( X ( t ) ) = tr ( X − 1 d X d t ) \frac{\partial}{\partial t} \log \det(X(t)) = \operatorname{tr}\left(X^{-1} \frac{dX}{dt}\right) ∂ t ∂ log det ( X ( t )) = tr ( X − 1 d t d X ) ,这是矩阵微积分中的经典结果。
Frobenius 内积与范数
迹定义了矩阵空间上的一种重要内积结构。对于 m × n m \times n m × n 矩阵 A , B A, B A , B ,Frobenius 内积 定义为:
⟨ A , B ⟩ F = tr ( A T B ) = ∑ i = 1 m ∑ j = 1 n a i j b i j . \langle A, B \rangle_{\mathrm{F}} = \operatorname{tr}(A^{\mathsf{T}} B) = \sum_{i=1}^{m}\sum_{j=1}^{n} a_{ij} b_{ij}. ⟨ A , B ⟩ F = tr ( A T B ) = i = 1 ∑ m j = 1 ∑ n a ij b ij .
由此导出的 Frobenius 范数 (也称为 Hilbert–Schmidt 范数)为 ∥ A ∥ F = tr ( A T A ) \|A\|_{\mathrm{F}} = \sqrt{\operatorname{tr}(A^{\mathsf{T}} A)} ∥ A ∥ F = tr ( A T A ) 。该范数与向量 ℓ 2 \ell_2 ℓ 2 范数完全相容,是矩阵分析中最常用的范数之一。Frobenius 范数具有酉不变性:对任意酉矩阵 U , V U, V U , V ,有 ∥ U A V ∥ F = ∥ A ∥ F \|U A V\|_{\mathrm{F}} = \|A\|_{\mathrm{F}} ∥ U A V ∥ F = ∥ A ∥ F 。
矩阵指数与 Jacobi 公式
在矩阵指数 exp ( A ) = ∑ k = 0 ∞ A k k ! \exp(A) = \sum_{k=0}^{\infty} \frac{A^k}{k!} exp ( A ) = ∑ k = 0 ∞ k ! A k 的研究中,迹与行列式通过著名的 Jacobi 公式关联:
det ( exp ( A ) ) = exp ( tr ( A ) ) . \det(\exp(A)) = \exp(\operatorname{tr}(A)). det ( exp ( A )) = exp ( tr ( A )) .
该公式的证明基于 Liouville 公式,它表明迹控制着矩阵指数映射的体积变化率。这一结果在常微分方程理论中用于分析流体的体积变化,在李群理论中用于刻画特殊线性群的李代数结构。具体而言,s l ( n ) \mathfrak{sl}(n) sl ( n ) 的李代数正是由所有迹为零的矩阵构成,因为 det ( exp ( A ) ) = 1 \det(\exp(A)) = 1 det ( exp ( A )) = 1 当且仅当 tr ( A ) = 0 \operatorname{tr}(A) = 0 tr ( A ) = 0 。
偏迹与量子信息
在量子力学和量子信息论中,偏迹 (partial trace)是普通迹运算的重要推广。对于复合系统的密度算子 ρ A B \rho_{AB} ρ A B ,偏迹 tr B ( ρ A B ) \operatorname{tr}_B(\rho_{AB}) tr B ( ρ A B ) 通过对子系统 B B B 求迹来约化出子系统 A A A 的状态。偏迹是量子纠缠度量和量子信道描述中的基本操作,也是冯·诺依曼熵计算的核心工具。量子态的约化密度矩阵正是通过偏迹运算得到的,它描述了观测者仅能访问部分子系统时的全部统计信息。偏迹的引入使得量子信息论能够严格定义量子纠缠、量子失协等非经典关联度量。
迹不等式
迹不等式在矩阵分析和优化理论中扮演着重要角色。以下是几个经典结果:
Von Neumann 迹不等式 :对任意矩阵 A , B A, B A , B ,有 ∣ tr ( A T B ) ∣ ≤ ∑ i = 1 n σ i ( A ) σ i ( B ) |\operatorname{tr}(A^{\mathsf{T}} B)| \leq \sum_{i=1}^{n} \sigma_i(A) \sigma_i(B) ∣ tr ( A T B ) ∣ ≤ ∑ i = 1 n σ i ( A ) σ i ( B ) ,其中 σ i \sigma_i σ i 表示奇异值。该不等式是 Hölder 不等式在矩阵情形下的推广。Golden–Thompson 不等式 :对 Hermite 矩阵 A , B A, B A , B ,有 tr ( exp ( A + B ) ) ≤ tr ( exp ( A ) exp ( B ) ) \operatorname{tr}(\exp(A + B)) \leq \operatorname{tr}(\exp(A) \exp(B)) tr ( exp ( A + B )) ≤ tr ( exp ( A ) exp ( B )) 。该不等式在统计力学中用于推导自由能的上界,是量子多体系统研究中的基本工具。Klein 不等式 :对凸函数 f f f 和 Hermite 矩阵 A , B A, B A , B ,有 tr ( f ( A ) − f ( B ) − ( A − B ) f ′ ( B ) ) ≥ 0 \operatorname{tr}(f(A) - f(B) - (A-B)f'(B)) \geq 0 tr ( f ( A ) − f ( B ) − ( A − B ) f ′ ( B )) ≥ 0 ,是相对熵非负性的矩阵推广。
随机迹估计
在大规模数值线性代数中,当矩阵维度过高无法显式计算时,常用随机方法估计迹。Hutchinson 方法是最经典的随机迹估计法:
tr ( A ) ≈ 1 m ∑ k = 1 m v k T A v k , \operatorname{tr}(A) \approx \frac{1}{m}\sum_{k=1}^{m} v_k^{\mathsf{T}} A v_k, tr ( A ) ≈ m 1 k = 1 ∑ m v k T A v k ,
其中 v k v_k v k 是服从 Rademacher 分布(以等概率取 ± 1 \pm 1 ± 1 )的随机向量。该方法在机器学习、网络分析和计算物理中广泛用于估计大矩阵的迹,例如估计核矩阵的秩或计算谱密度。当矩阵 A A A 能以矩阵-向量乘积形式高效访问时,随机迹估计的复杂度远低于显式构造 A A A 。
总结
矩阵的迹是一个简单而深刻的数学概念。它从对角元之和出发,通过循环不变性、特征值关系、Frobenius 内积和 Jacobi 公式等,与线性代数的各个分支紧密相连。迹不仅是理论推导中的便捷工具,也是大规模数值计算中不可或缺的基本手段。从量子力学的偏迹到机器学习的随机估计,迹的概念不断展现出新的活力和应用价值。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。