ARTICLE

迹(Trace),在线性代数中特指方阵主对角线元素之和,是最基本的矩阵不变量之一。对于 n n 矩阵 A = [a_ij],其迹定义为 tr( A) = _i=1^n a_ii。迹的概念最早可追溯至19世纪数学家阿瑟·凯莱和詹姆斯·约瑟夫·西尔维斯特的工作,他们在矩阵理论的奠基过程中系统地研究了迹的代数性质。迹在数学的多个分支中扮演着核心角色,从特征值理论到

浏览 3 更新 2026-07-17

(Trace),在线性代数中特指方阵主对角线元素之和,是最基本的矩阵不变量之一。对于 n×nn \times n 矩阵 A=[aij]\mathbf{A} = [a_{ij}],其迹定义为 tr(A)=i=1naii\operatorname{tr}(\mathbf{A}) = \sum_{i=1}^{n} a_{ii}。迹的概念最早可追溯至19世纪数学家阿瑟·凯莱和詹姆斯·约瑟夫·西尔维斯特的工作,他们在矩阵理论的奠基过程中系统地研究了迹的代数性质。迹在数学的多个分支中扮演着核心角色,从特征值理论到微分几何,从泛函分析到概率统计,其影响无处不在。在经济学和计量经济学中,迹被广泛用于模型选择、假设检验和降维分析之中,是连接抽象代数结构与实证分析实践的重要纽带。迹之所以具有如此深远的理论价值,根本原因在于它独立于基的选择——即相似变换下的不变性——这一性质使其成为描述线性变换固有特征的自然候选量。

1. 基本性质

迹具有以下若干基础而重要的代数性质。

线性性质:对任意同阶方阵 A,B\mathbf{A}, \mathbf{B} 和标量 cc,有 tr(A+B)=tr(A)+tr(B)\operatorname{tr}(\mathbf{A} + \mathbf{B}) = \operatorname{tr}(\mathbf{A}) + \operatorname{tr}(\mathbf{B})tr(cA)=ctr(A)\operatorname{tr}(c\mathbf{A}) = c\operatorname{tr}(\mathbf{A})。这一性质使迹成为矩阵空间上的线性泛函。

循环置换不变性:对 ARm×n\mathbf{A} \in \mathbb{R}^{m \times n}BRn×m\mathbf{B} \in \mathbb{R}^{n \times m},有 tr(AB)=tr(BA)\operatorname{tr}(\mathbf{A}\mathbf{B}) = \operatorname{tr}(\mathbf{B}\mathbf{A})。这一性质可以推广到多个矩阵的乘积:只要保持循环顺序不变,迹在置换下保持不变。例如,tr(ABC)=tr(CAB)=tr(BCA)\operatorname{tr}(\mathbf{A}\mathbf{B}\mathbf{C}) = \operatorname{tr}(\mathbf{C}\mathbf{A}\mathbf{B}) = \operatorname{tr}(\mathbf{B}\mathbf{C}\mathbf{A})。需要强调的是,这一性质并不适用于一般意义上的任意置换——循环置换是必要条件。该性质在推导矩阵导数、证明谱定理和化简迹方程中频繁出现,是迹运算中最常用的工具之一。

相似不变性:对任意可逆矩阵 P\mathbf{P},有 tr(P1AP)=tr(A)\operatorname{tr}(\mathbf{P}^{-1}\mathbf{A}\mathbf{P}) = \operatorname{tr}(\mathbf{A})。这一性质是迹作为矩阵"不变量"的定义性特征,也是迹在几何和物理应用中广泛使用的深层原因。

与特征值的关系:设 λ1,λ2,,λn\lambda_1, \lambda_2, \dots, \lambda_n 为方阵 A\mathbf{A} 的特征值(含重数),则 tr(A)=i=1nλi\operatorname{tr}(\mathbf{A}) = \sum_{i=1}^n \lambda_i。这一关系是特征多项式 Vieta 公式的直接推论,它将迹这种易于计算的代数量与该矩阵更深层的谱结构联系了起来。与行列式 det(A)=i=1nλi\det(\mathbf{A}) = \prod_{i=1}^n \lambda_i 一起,迹和行列式构成了从代数到谱分析的桥梁。

2. 迹与内积

在矩阵空间中,迹可以定义一种自然的内积结构。对于同阶矩阵 A,B\mathbf{A}, \mathbf{B},Frobenius 内积定义为 A,BF=tr(ATB)\langle \mathbf{A}, \mathbf{B} \rangle_F = \operatorname{tr}(\mathbf{A}^{\mathsf{T}}\mathbf{B})。由此诱导的范数 AF=tr(ATA)\|\mathbf{A}\|_F = \sqrt{\operatorname{tr}(\mathbf{A}^{\mathsf{T}}\mathbf{A})} 称为 Frobenius 范数,是 Rn×n\mathbb{R}^{n \times n} 空间中最常用的矩阵范数之一。

Frobenius 范数的直观含义可以通过奇异值分解来理解。设 A=UΣVT\mathbf{A} = \mathbf{U}\mathbf{\Sigma}\mathbf{V}^{\mathsf{T}},其中 σ1,,σr\sigma_1, \dots, \sigma_r 为非零奇异值,则 AF2=i=1rσi2\|\mathbf{A}\|_F^2 = \sum_{i=1}^r \sigma_i^2。这意味着 Frobenius 范数衡量的是矩阵所有奇异值的平方和,反映了矩阵在 Frobenius 度量下的总"能量"。在数值线性代数中,Frobenius 范数被广泛用于矩阵逼近、低秩分解和正则化问题中,原因正是在于其与迹运算的简洁关系以及凸优化中的良好性质。

3. 迹在计量经济学中的应用

迹在计量经济学和统计学中有若干关键应用,以下择要介绍。

Wald 统计量与假设检验:在多参数联合假设检验中,Wald 统计量往往可以表示为二次型形式,其极限分布的自由度与约束个数等价。在更一般的多元检验框架中,基于迹的统计量被用于检验多个方程的联合显著性。例如,在向量自回归模型中,Granger 因果关系的多元检验常涉及迹统计量的计算。

多元回归与方差分析:在多元方差分析中,总离差平方和可以被分解为组间离差和组内离差两个部分,而迹恰好提供了将这种分解从一维推广到多维的自然方式。Wilk's Lambda、Pillai's Trace 和 Hotelling-Lawley Trace 等多元检验统计量均以迹为核心构建。Pillai's Trace 定义为 V=tr(H(H+E)1)V = \operatorname{tr}\big(\mathbf{H}(\mathbf{H} + \mathbf{E})^{-1}\big),其中 H\mathbf{H} 为假设效应矩阵,E\mathbf{E} 为误差矩阵。Pillai 迹在样本量较小或违背某些假设时比其它检验更具稳健性。

主成分分析与因子分析:在降维方法中,迹出现在两个关键位置。第一,协方差矩阵的迹等于各变量的方差之和,即 tr(Σ)=i=1pσii\operatorname{tr}(\mathbf{\Sigma}) = \sum_{i=1}^p \sigma_{ii},这反映了系统的总变异。第二,在选取主成分时,前 kk 个主成分的累积方差贡献率 i=1kλi/tr(Σ)\sum_{i=1}^k \lambda_i / \operatorname{tr}(\mathbf{\Sigma}) 直接使用迹作为归一化因子,其中 λi\lambda_i 为协方差矩阵的特征值。这一比值帮助研究者判断应当保留多少个主成分才能使信息损失最小化。

协整检验:在时间序列分析中,Johansen 协整检验通过计算矩阵的迹来检验多个非平稳序列之间是否存在长期均衡关系。迹统计量 λtrace=Ti=r+1pln(1λ^i)\lambda_{\text{trace}} = -T \sum_{i=r+1}^p \ln(1 - \hat{\lambda}_i) 通过对最小的 prp-r 个特征值施加惩罚来判定协整秩 rr。迹检验是宏观实证经济学中评估多变量长期关系的标准工具,在货币需求函数估计、购买力平价检验和资产定价模型中均有广泛应用。

4. 迹在优化与机器学习中的角色

迹运算在机器学习和优化理论中同样发挥着重要作用。

矩阵微分:迹在矩阵微积分中占据特殊地位,因为许多矩阵函数的导数可以优雅地表示为迹形式。例如,Xtr(AXB)=ATBT\frac{\partial}{\partial \mathbf{X}} \operatorname{tr}(\mathbf{A}\mathbf{X}\mathbf{B}) = \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}Xtr(XTAX)=(A+AT)X\frac{\partial}{\partial \mathbf{X}} \operatorname{tr}(\mathbf{X}^{\mathsf{T}}\mathbf{A}\mathbf{X}) = (\mathbf{A} + \mathbf{A}^{\mathsf{T}})\mathbf{X}。这些公式是矩阵形式的链式法则的基础,在求解带有矩阵变量的优化问题时不可或缺。

正则化与低秩近似:在矩阵补全和推荐系统中,核范数 X=iσi=tr(XTX)\|\mathbf{X}\|_* = \sum_i \sigma_i = \operatorname{tr}\big(\sqrt{\mathbf{X}^{\mathsf{T}}\mathbf{X}}\big) 作为秩函数的凸松弛被广泛用作正则化项。核范数正则化可以促使解具有低秩结构,在 Netflix 问题、协同过滤和系统辨识等任务中取得了显著成效。与 Frobenius 范数正则化不同,核范数约束的是奇异值的和而非平方和,因此倾向于产生稀疏的奇异值分布。

KL 散度与信息几何:在信息论中,高斯分布之间的 Kullback-Leibler 散度涉及迹运算:

DKL(N(μ0,Σ0)N(μ1,Σ1))=12[tr(Σ11Σ0)p+(μ1μ0)TΣ11(μ1μ0)+lnΣ1Σ0].D_{\text{KL}}(\mathcal{N}(\mu_0, \mathbf{\Sigma}_0) \| \mathcal{N}(\mu_1, \mathbf{\Sigma}_1)) = \frac{1}{2}\big[\operatorname{tr}(\mathbf{\Sigma}_1^{-1}\mathbf{\Sigma}_0) - p + (\mu_1 - \mu_0)^{\mathsf{T}}\mathbf{\Sigma}_1^{-1}(\mu_1 - \mu_0) + \ln\frac{|\mathbf{\Sigma}_1|}{|\mathbf{\Sigma}_0|}\big].

其中的迹项 tr(Σ11Σ0)\operatorname{tr}(\mathbf{\Sigma}_1^{-1}\mathbf{\Sigma}_0) 度量了两个协方差矩阵之间的"错配程度",是理解高斯变分推断和自然梯度下降算法的关键量。

总结

迹作为线性代数中最简洁的不变量之一,从一个简单的对角线求和运算出发,延伸至特征值理论、内积结构、多元统计推断和现代机器学习等多个领域。其核心优势在于:计算简便(只需累加对角线元素)、性质优美(相似不变性、循环性)以及理论与应用之间的高度连通性。在经济学的实证研究中,迹支撑着从协整检验到主成分分析的广泛方法体系,是量化研究者工具箱中不可或缺的基本概念。