ARTICLE

矩阵的迹

矩阵的迹(trace)是线性代数中定义在方阵上的一个基本标量函数,记为 tr(A) ,定义为矩阵主对角线上所有元素之和。对于 n n 矩阵 A = (a_ij) ,其迹为 tr(A) = _i=1^n a_ii 。迹是一个线性泛函,不仅在矩阵理论中占据核心地位,还在微分几何、量子力学、统计力学和机器学习等领域有着广泛应用。迹的概念虽然简单,却蕴含着深刻的理论

浏览 0 更新 2025-11-08

矩阵的迹(trace)是线性代数中定义在方阵上的一个基本标量函数,记为 tr(A) \operatorname{tr}(A) ,定义为矩阵主对角线上所有元素之和。对于 n×n n \times n 矩阵 A=(aij) A = (a_{ij}) ,其迹为 tr(A)=i=1naii \operatorname{tr}(A) = \sum_{i=1}^{n} a_{ii} 。迹是一个线性泛函,不仅在矩阵理论中占据核心地位,还在微分几何、量子力学、统计力学和机器学习等领域有着广泛应用。迹的概念虽然简单,却蕴含着深刻的理论意义,它连接了矩阵的代数结构、几何变换和谱性质。理解迹对于掌握整个线性代数体系具有重要的启发意义。

基本性质

迹满足以下基本代数性质。设 A,B A, B n×n n \times n 方阵,α \alpha 为标量:

  • 线性性:迹是一个线性映射,即 tr(A+B)=tr(A)+tr(B) \operatorname{tr}(A + B) = \operatorname{tr}(A) + \operatorname{tr}(B) ,且 tr(αA)=αtr(A) \operatorname{tr}(\alpha A) = \alpha \operatorname{tr}(A) 。这意味着所有同阶方阵的迹构成一个线性泛函空间。
  • 转置不变性tr(AT)=tr(A) \operatorname{tr}(A^{\mathsf{T}}) = \operatorname{tr}(A) ,因为转置仅将行与列互换,对角元素保持不变。
  • 共轭转置:对于复矩阵,tr(A)=tr(A) \operatorname{tr}(A^{\dagger}) = \overline{\operatorname{tr}(A)} ,其中 \dagger 表示共轭转置,上划线表示复共轭。

循环不变性

迹最重要且最深刻的性质是循环不变性:tr(AB)=tr(BA) \operatorname{tr}(AB) = \operatorname{tr}(BA) 。这一性质可以推广到多个矩阵的乘积:对任意相容维度的矩阵 A,B,C A, B, C ,有

tr(ABC)=tr(BCA)=tr(CAB).\operatorname{tr}(ABC) = \operatorname{tr}(BCA) = \operatorname{tr}(CAB).

但需特别注意,tr(ABC)tr(ACB) \operatorname{tr}(ABC) \neq \operatorname{tr}(ACB) 一般成立,即只有循环置换保持迹不变,非循环置换会改变结果。例如在三维情形下,tr(ABC)=tr(CAB)=tr(BCA) \operatorname{tr}(ABC) = \operatorname{tr}(CAB) = \operatorname{tr}(BCA) ,但一般不等于 tr(ACB) \operatorname{tr}(ACB) 。循环不变性的一个直接推论是迹在相似变换下不变:若 P P 可逆,则 tr(P1AP)=tr(A) \operatorname{tr}(P^{-1}AP) = \operatorname{tr}(A) 。这进一步说明迹是矩阵的相似不变量,即所有相似矩阵都共享同一迹值,这与行列式一样都是相似等价类的重要标识。

与特征值的关系

迹与矩阵的特征值有着密切联系,这是线性代数中最核心的结果之一。设 n×n n \times n 矩阵 A A 的特征值为 λ1,λ2,,λn \lambda_1, \lambda_2, \dots, \lambda_n (计代数重数),则:

tr(A)=i=1nλi.\operatorname{tr}(A) = \sum_{i=1}^{n} \lambda_i.

这一结论可以从特征多项式的展开中直接导出。矩阵 A A 的特征多项式为

det(λIA)=λn(trA)λn1++(1)ndetA,\det(\lambda I - A) = \lambda^n - (\operatorname{tr} A)\,\lambda^{n-1} + \cdots + (-1)^n \det A,

其中 λn1 \lambda^{n-1} 的系数恰为 tr(A) -\operatorname{tr}(A) 。由于特征多项式的根就是特征值,由韦达定理可知根之和等于 λn1 \lambda^{n-1} 系数的相反数,即 tr(A) \operatorname{tr}(A) 。类似地,常数项给出行列式与特征值的关系:det(A)=i=1nλi \det(A) = \prod_{i=1}^{n} \lambda_i 。因此,迹与行列式共同构成了特征多项式中最重要的两个系数,分别反映了特征值的和与积。

矩阵的导数和微分

在矩阵微积分中,迹是一个极其便利的工具。许多矩阵函数的导数可以用迹简洁地表达。例如,对于标量函数 f(X)=tr(AX) f(X) = \operatorname{tr}(AX) ,其梯度为 fX=AT \frac{\partial f}{\partial X} = A^{\mathsf{T}} 。更一般地,对于 f(X)=tr(XTAX) f(X) = \operatorname{tr}(X^{\mathsf{T}} A X) ,有 fX=(A+AT)X \frac{\partial f}{\partial X} = (A + A^{\mathsf{T}}) X 。这些公式在机器学习中的线性回归、主成分分析、神经网络反向传播和深度学习优化中频繁出现,是矩阵求导课程中的标准内容。

迹的微分性质还体现在行列式的对数导数中:tlogdet(X(t))=tr(X1dXdt) \frac{\partial}{\partial t} \log \det(X(t)) = \operatorname{tr}\left(X^{-1} \frac{dX}{dt}\right) ,这是矩阵微积分中的经典结果。

Frobenius 内积与范数

迹定义了矩阵空间上的一种重要内积结构。对于 m×n m \times n 矩阵 A,B A, B Frobenius 内积定义为:

A,BF=tr(ATB)=i=1mj=1naijbij.\langle A, B \rangle_{\mathrm{F}} = \operatorname{tr}(A^{\mathsf{T}} B) = \sum_{i=1}^{m}\sum_{j=1}^{n} a_{ij} b_{ij}.

由此导出的 Frobenius 范数(也称为 Hilbert–Schmidt 范数)为 AF=tr(ATA) \|A\|_{\mathrm{F}} = \sqrt{\operatorname{tr}(A^{\mathsf{T}} A)} 。该范数与向量 2 \ell_2 范数完全相容,是矩阵分析中最常用的范数之一。Frobenius 范数具有酉不变性:对任意酉矩阵 U,V U, V ,有 UAVF=AF \|U A V\|_{\mathrm{F}} = \|A\|_{\mathrm{F}}

矩阵指数与 Jacobi 公式

在矩阵指数 exp(A)=k=0Akk! \exp(A) = \sum_{k=0}^{\infty} \frac{A^k}{k!} 的研究中,迹与行列式通过著名的 Jacobi 公式关联:

det(exp(A))=exp(tr(A)).\det(\exp(A)) = \exp(\operatorname{tr}(A)).

该公式的证明基于 Liouville 公式,它表明迹控制着矩阵指数映射的体积变化率。这一结果在常微分方程理论中用于分析流体的体积变化,在李群理论中用于刻画特殊线性群的李代数结构。具体而言,sl(n) \mathfrak{sl}(n) 的李代数正是由所有迹为零的矩阵构成,因为 det(exp(A))=1 \det(\exp(A)) = 1 当且仅当 tr(A)=0 \operatorname{tr}(A) = 0

偏迹与量子信息

在量子力学和量子信息论中,偏迹(partial trace)是普通迹运算的重要推广。对于复合系统的密度算子 ρAB \rho_{AB} ,偏迹 trB(ρAB) \operatorname{tr}_B(\rho_{AB}) 通过对子系统 B B 求迹来约化出子系统 A A 的状态。偏迹是量子纠缠度量和量子信道描述中的基本操作,也是冯·诺依曼熵计算的核心工具。量子态的约化密度矩阵正是通过偏迹运算得到的,它描述了观测者仅能访问部分子系统时的全部统计信息。偏迹的引入使得量子信息论能够严格定义量子纠缠、量子失协等非经典关联度量。

迹不等式

迹不等式在矩阵分析和优化理论中扮演着重要角色。以下是几个经典结果:

  • Von Neumann 迹不等式:对任意矩阵 A,B A, B ,有 tr(ATB)i=1nσi(A)σi(B) |\operatorname{tr}(A^{\mathsf{T}} B)| \leq \sum_{i=1}^{n} \sigma_i(A) \sigma_i(B) ,其中 σi \sigma_i 表示奇异值。该不等式是 Hölder 不等式在矩阵情形下的推广。
  • Golden–Thompson 不等式:对 Hermite 矩阵 A,B A, B ,有 tr(exp(A+B))tr(exp(A)exp(B)) \operatorname{tr}(\exp(A + B)) \leq \operatorname{tr}(\exp(A) \exp(B)) 。该不等式在统计力学中用于推导自由能的上界,是量子多体系统研究中的基本工具。
  • Klein 不等式:对凸函数 f f 和 Hermite 矩阵 A,B A, B ,有 tr(f(A)f(B)(AB)f(B))0 \operatorname{tr}(f(A) - f(B) - (A-B)f'(B)) \geq 0 ,是相对熵非负性的矩阵推广。

随机迹估计

在大规模数值线性代数中,当矩阵维度过高无法显式计算时,常用随机方法估计迹。Hutchinson 方法是最经典的随机迹估计法:

tr(A)1mk=1mvkTAvk,\operatorname{tr}(A) \approx \frac{1}{m}\sum_{k=1}^{m} v_k^{\mathsf{T}} A v_k,

其中 vk v_k 是服从 Rademacher 分布(以等概率取 ±1 \pm 1 )的随机向量。该方法在机器学习、网络分析和计算物理中广泛用于估计大矩阵的迹,例如估计核矩阵的秩或计算谱密度。当矩阵 A A 能以矩阵-向量乘积形式高效访问时,随机迹估计的复杂度远低于显式构造 A A

总结

矩阵的迹是一个简单而深刻的数学概念。它从对角元之和出发,通过循环不变性、特征值关系、Frobenius 内积和 Jacobi 公式等,与线性代数的各个分支紧密相连。迹不仅是理论推导中的便捷工具,也是大规模数值计算中不可或缺的基本手段。从量子力学的偏迹到机器学习的随机估计,迹的概念不断展现出新的活力和应用价值。