ARTICLE

矩阵迹

矩阵迹 (Trace of a Matrix) 矩阵迹(Trace),简称迹,是线性代数中最基本的矩阵标量不变量之一:一个方阵的迹定义为其主对角线元素之和。尽管定义朴素,迹却因满足循环不变性 tr(AB) = tr(BA) 而拥有令人惊讶的代数深度与广泛的应用场景。在统计学与计量经济学中,迹是导出自由度、计算模型选择准则(如 AIC、Cp 统计量)以及分析岭

浏览 0 更新 2026-01-16

矩阵迹 (Trace of a Matrix)

矩阵迹(Trace),简称,是线性代数中最基本的矩阵标量不变量之一:一个方阵的迹定义为其主对角线元素之和。尽管定义朴素,迹却因满足循环不变性 tr(AB)=tr(BA)\operatorname{tr}(AB) = \operatorname{tr}(BA) 而拥有令人惊讶的代数深度与广泛的应用场景。在统计学与计量经济学中,迹是导出自由度、计算模型选择准则(如 AICCp 统计量)以及分析岭回归收缩性质的核心工具;在机器学习中,迹范数(核范数)是低秩学习与矩阵补全的基石;在量子力学中,密度矩阵的迹恒为 1(概率归一);在微分几何中,迹是 Ricci 曲率与标量曲率的定义入口。

定义与记法

A=(aij)Fn×nA = (a_{ij}) \in \mathbb{F}^{n \times n} 为域 F\mathbb{F}(通常取 R\mathbb{R}C\mathbb{C})上的 nn 阶方阵。AA 的迹定义为所有主对角线元素之和:

tr(A)=i=1naii=a11+a22++ann\operatorname{tr}(A) = \sum_{i=1}^{n} a_{ii} = a_{11} + a_{22} + \cdots + a_{nn}

迹是从 Mn(F)M_n(\mathbb{F})F\mathbb{F}线性泛函:对任意方阵 A,BA, B 和标量 α,βF\alpha, \beta \in \mathbb{F},有 tr(αA+βB)=αtr(A)+βtr(B)\operatorname{tr}(\alpha A + \beta B) = \alpha \operatorname{tr}(A) + \beta \operatorname{tr}(B)。这一线性性是迹所有后续性质的代数根基。

迹的记法源自德文 Spur(痕迹、踪迹),在部分文献中也记作 Sp(A)\operatorname{Sp}(A),尤其在量子力学与 Lie 代数语境中常见。英文 trace 一词由 Henry Frederic Baker 于 1901 年引入 (OED),而 Dedekind 与 Frobenius 在 19 世纪末的表示论研究中已大量使用迹的德语等价词。

迹与转置的关系极为简单:tr(AT)=tr(A)\operatorname{tr}(A^{\mathsf{T}}) = \operatorname{tr}(A)。对于复矩阵,共轭转置满足 tr(A)=tr(A)\operatorname{tr}(A^*) = \overline{\operatorname{tr}(A)}。特别地,对 Hermite 矩阵 A=AA = A^*,迹为实数——因为对角元本身即为实数。

循环不变性与相似不变性

迹最重要的代数性质是循环置换不变性:对于任意兼容维度的矩阵 A,B,CA, B, C

tr(ABC)=tr(BCA)=tr(CAB)\operatorname{tr}(ABC) = \operatorname{tr}(BCA) = \operatorname{tr}(CAB)

只要乘积为方阵。更一般地,迹在循环置换下保持不变,但非对称置换不保持迹。最常用的是两矩阵情形:

tr(AB)=tr(BA)\operatorname{tr}(AB) = \operatorname{tr}(BA)

即使 AABB 不是方阵——只要 ABABBABA 分别为方阵,该等式均成立。证明仅需展开双重和:

tr(AB)=i(AB)ii=ikaikbki=kibkiaik=k(BA)kk=tr(BA)\operatorname{tr}(AB) = \sum_{i} (AB)_{ii} = \sum_{i} \sum_{k} a_{ik} b_{ki} = \sum_{k} \sum_{i} b_{ki} a_{ik} = \sum_{k} (BA)_{kk} = \operatorname{tr}(BA)

循环性质的一个直接推论是相似不变性:若 PP 为可逆矩阵,则 tr(P1AP)=tr(A)\operatorname{tr}(P^{-1} A P) = \operatorname{tr}(A)。这是因为 tr(P1AP)=tr(APP1)=tr(A)\operatorname{tr}(P^{-1} A P) = \operatorname{tr}(A P P^{-1}) = \operatorname{tr}(A)。迹因此在相似变换下保持不变,属于矩阵的相似不变量,与行列式特征值并列。

循环性质亦可用于反向构造迹:在特征零域上,迹是满足 tr(AB)=tr(BA)\operatorname{tr}(AB) = \operatorname{tr}(BA) 的唯一(不计标量倍)线性泛函。即商空间 Mn/[Mn,Mn]M_n / [M_n, M_n] 是一维的,迹为其典范同构映射至基域。这一深刻事实将迹与Lie 代数 gl(n)\mathfrak{gl}(n) 的导代数结构相关联,迹恰为 Lie 代数表示论中的基本不变量。

迹与特征值

迹与矩阵的特征值之间存在优美的关系:方阵的迹等于所有特征值(计入代数重数)之和。若 λ1,,λn\lambda_1, \ldots, \lambda_nAA 的特征值(可能为复数),则

tr(A)=i=1nλi\operatorname{tr}(A) = \sum_{i=1}^{n} \lambda_i

证明可从特征多项式入手。将特征多项式按首一多项式展开:

pA(λ)=det(λIA)=λn(trA)λn1++(1)ndet(A)p_A(\lambda) = \det(\lambda I - A) = \lambda^n - (\operatorname{tr} A) \lambda^{n-1} + \cdots + (-1)^n \det(A)

tr(A)-\operatorname{tr}(A) 恰为 λn1\lambda^{n-1} 项的系数。另一方面,pA(λ)=i=1n(λλi)p_A(\lambda) = \prod_{i=1}^{n} (\lambda - \lambda_i),展开后 λn1\lambda^{n-1} 系数为 λi-\sum \lambda_i,比较即得结论。

由此引出一系列推论:实对称矩阵的迹为实数(特征值均为实数);正定矩阵的迹严格为正;幂零矩阵的迹为零(所有特征值均为零)。对于投影矩阵 P=P2=PP = P^2 = P^*,其迹等于矩阵的秩,即投影到的子空间维数——因为特征值仅取 0 或 1,且重数等于相应特征空间的维数。这一性质在统计学的帽子矩阵方差分析(ANOVA)中反复出现。

迹与行列式的另一深刻联系由矩阵指数揭示:对于任意方阵 AA

det(eA)=etr(A)\det(e^{A}) = e^{\operatorname{tr}(A)}

此公式是 Lie 群 理论中 detexp=exptr\det \circ \exp = \exp \circ \operatorname{tr} 关系的特殊情形,也是 gl(n)GL(n)\mathfrak{gl}(n) \to \mathrm{GL}(n) 映射下迹作为 Lie 代数同态的核心体现。

迹内积与 Frobenius 范数

迹可用来定义矩阵空间上的Frobenius 内积(亦称 Hilbert-Schmidt 内积):

A,BF=tr(AB)=i,jaijbij\langle A, B \rangle_F = \operatorname{tr}(A^* B) = \sum_{i,j} \overline{a_{ij}} b_{ij}

该内积导出的 Frobenius 范数 AF=tr(AA)=i,jaij2\|A\|_F = \sqrt{\operatorname{tr}(A^* A)} = \sqrt{\sum_{i,j} |a_{ij}|^2} 使矩阵空间成为Hilbert 空间。Frobenius 内积在实矩阵情形退化为 tr(ATB)\operatorname{tr}(A^{\mathsf{T}} B),与Frobenius 内积词条中讨论的自然内积完全一致。

此框架下,对称矩阵空间 Sn\mathbb{S}^n 与反对称矩阵空间构成正交分解,投影映射可显式表为迹运算。在优化理论中,许多矩阵变量的目标函数(如 XYF2\|X - Y\|_F^2)对 XX 求梯度时需使用迹的导数恒等式 Xtr(AX)=AT\nabla_X \operatorname{tr}(A X) = A^{\mathsf{T}}Xtr(AXTB)=BA\nabla_X \operatorname{tr}(A X^{\mathsf{T}} B) = B A

统计与计量经济学中的应用

迹是计量经济学中自由度计算的代数载体。考虑线性回归模型 y^=Hy\hat{y} = H y,其中 H=X(XTX)1XTH = X (X^{\mathsf{T}} X)^{-1} X^{\mathsf{T}} 为帽子矩阵。残差平方和 RSS 的期望为:

E[yy^2]=σ2tr(IH)=σ2(np)\mathbb{E}[\|y - \hat{y}\|^2] = \sigma^2 \operatorname{tr}(I - H) = \sigma^2 (n - p)

其中 tr(H)=p\operatorname{tr}(H) = p 等于参数个数,因此 tr(IH)=np\operatorname{tr}(I - H) = n - p 即为残差自由度。此结论推广至岭回归(Ridge Regression)时,有效自由度定义为 df(λ)=tr(Hλ)=tr(X(XTX+λI)1XT)\mathrm{df}(\lambda) = \operatorname{tr}(H_\lambda) = \operatorname{tr}(X (X^{\mathsf{T}} X + \lambda I)^{-1} X^{\mathsf{T}}),它是一个随惩罚参数 λ\lambda 递减的连续量,刻画收缩估计的复杂度。

模型选择准则广泛使用迹。Cp 统计量(Mallows' Cp)估计预测误差时依赖 tr(H)\operatorname{tr}(H) 作为模型复杂度的度量。AIC(Akaike 信息准则)的推导中,Kullback-Leibler 散度的渐近期望涉及 Fisher 信息矩阵之迹与估计渐近协方差矩阵之迹的乘积。在面板数据随机效应模型中,方差分量估计的 ANOVA 型估计量 σ^α2\hat{\sigma}_\alpha^2 通过预期均方(Expected Mean Squares)的形式导出,而预期均方本质上即是适当二次型期望的迹表达式。

此外,Hausman 检验统计量 H=(β^FEβ^RE)T[Var(β^FE)Var(β^RE)]1(β^FEβ^RE)H = (\hat{\beta}_{FE} - \hat{\beta}_{RE})^{\mathsf{T}} [\operatorname{Var}(\hat{\beta}_{FE}) - \operatorname{Var}(\hat{\beta}_{RE})]^{-1} (\hat{\beta}_{FE} - \hat{\beta}_{RE}) 的分布推导中,协方差矩阵差之迹用于确认检验的可逆性条件。

机器学习与优化中的迹

迹范数(Nuclear NormX=tr(XX)=σi(X)\|X\|_* = \operatorname{tr}(\sqrt{X^* X}) = \sum \sigma_i(X) 是矩阵奇异值之和,也是秩函数在单位球上的最紧凸松弛。这一性质使迹范数成为矩阵补全(Matrix Completion)、鲁棒主成分分析(RPCA)与低秩表示学习的核心正则化工具。优化问题

minX12PΩ(XM)F2+λX\min_{X} \frac{1}{2} \| \mathcal{P}_\Omega (X - M) \|_F^2 + \lambda \|X\|_*

在 Netflix 推荐系统竞赛后成为低秩恢复的标准化方法。

梯度下降的矩阵推广也依赖迹。对于矩阵变量目标函数 f(X)f(X),其欧氏梯度 f(X)\nabla f(X) 的 Frobenius 内积表示方向导数 Df(X)[V]=tr(f(X)TV)D f(X)[V] = \operatorname{tr}(\nabla f(X)^{\mathsf{T}} V)。在主成分分析(PCA)中,最大化投影方差等价于 maxUTU=Itr(UTSU)\max_{U^{\mathsf{T}} U = I} \operatorname{tr}(U^{\mathsf{T}} S U),其中 SS 为样本协方差矩阵;在线性判别分析(LDA)中,同时对角化 Σw1Σb\Sigma_w^{-1} \Sigma_b 的目标函数写为迹比(trace ratio)优化问题 maxtr(WTSbW)/tr(WTSwW)\max \operatorname{tr}(W^{\mathsf{T}} S_b W) / \operatorname{tr}(W^{\mathsf{T}} S_w W)

若干进一步的恒等式与不等式

迹满足一系列经典不等式,其中最基本的是迹的 Cauchy-Schwarz 型界:对任意 A,BRn×nA, B \in \mathbb{R}^{n \times n},有 tr(ATB)AFBF|\operatorname{tr}(A^{\mathsf{T}} B)| \leq \|A\|_F \|B\|_F。若 A,BA, B 为半正定对称矩阵,则 tr(AB)0\operatorname{tr}(AB) \geq 0 且满足 von Neumann 迹不等式

tr(AB)i=1nλi(A)λi(B)\operatorname{tr}(AB) \leq \sum_{i=1}^{n} \lambda_i(A) \lambda_i(B)

其中特征值已按降序排列。此不等式在量子信息论中给出两个可观测量的期望值上界。

矩阵的迹与行列式通过算术-几何平均不等式(AM-GM)建立桥梁:对正定矩阵 AA,有 1ntr(A)(detA)1/n\frac{1}{n} \operatorname{tr}(A) \geq (\det A)^{1/n},等号成立当且仅当 AA 为标量矩阵 λI\lambda I。这一性质在推导信息论中的熵最大化分布与凸优化的对偶障碍函数时富有启发性。