ARTICLE

矩阵微积分

矩阵微积分 (Matrix Calculus) 矩阵微积分(Matrix Calculus)是微积分在矩阵与向量函数上的系统性推广,旨在为标量、向量和矩阵关于向量或矩阵自变量的导数与梯度运算提供统一而高效的数学框架。它在多元统计分析、计量经济学、机器学习(尤其是深度学习中的反向传播算法)、控制理论及优化理论等领域中居于核心地位。通过使用矩阵微积分,研究者能够

浏览 5 更新 2026-08-15

矩阵微积分 (Matrix Calculus)

矩阵微积分(Matrix Calculus)是微积分矩阵向量函数上的系统性推广,旨在为标量、向量和矩阵关于向量或矩阵自变量的导数梯度运算提供统一而高效的数学框架。它在多元统计分析计量经济学机器学习(尤其是深度学习中的反向传播算法)、控制理论优化理论等领域中居于核心地位。通过使用矩阵微积分,研究者能够以紧凑的符号表示处理高维参数的求导问题,彻底避免了逐元素展开的繁琐与低效。

基本约定与布局

矩阵微积分中存在两种主要的布局约定(Layout Conventions),决定了导数结果的维度排列。最常用的是分母布局(Denominator Layout,又称梯度布局,Gradient Layout)和分子布局(Numerator Layout,又称雅可比布局,Jacobian Layout)。分母布局之所以得名,是因为标量函数关于向量的导数结果出现在分母一侧,即梯度向量的每个分量对应于分母自变量的各个维度。分子布局则恰好相反,其维度排列对应于分子函数各分量与分母自变量各维度的外积。

yRm\mathbf{y} \in \mathbb{R}^m 为向量函数,xRn\mathbf{x} \in \mathbb{R}^n 为向量自变量。在分子布局中,导数 yx\frac{\partial \mathbf{y}}{\partial \mathbf{x}} 为一个 m×nm \times n雅可比矩阵(Jacobian Matrix),其第 (i,j)(i,j) 元素为 yi/xj\partial y_i / \partial x_j。在分母布局中,该导数为 n×mn \times m 矩阵,恰为分子布局的转置。两种布局在数学上是等价的,但使用时必须保持一致,否则会导致链式法则和梯度更新公式的混淆。本文采用分子布局,因其在雅可比矩阵和链式法则的表达上更为直观。

标量关于向量的导数

最基本的矩阵微积分运算是标量函数关于向量自变量的导数,即偏导数概念的向量化推广。设 f:RnRf: \mathbb{R}^n \to \mathbb{R} 为一个可微的标量函数,x=[x1,x2,,xn]T\mathbf{x} = [x_1, x_2, \ldots, x_n]^\mathsf{T} 为自变量向量。则 ff 关于 x\mathbf{x}梯度(Gradient)定义为由所有一阶偏导数组成的列向量:

xf=fx=[fx1,fx2,,fxn]T.\nabla_{\mathbf{x}} f = \frac{\partial f}{\partial \mathbf{x}} = \left[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_n} \right]^\mathsf{T}.

梯度是一个与 x\mathbf{x} 同维度的列向量,其方向指向函数值增长最快的方向,其模长则反映了沿该方向的变化速率。在梯度下降法(Gradient Descent)中,参数沿负梯度方向迭代更新以实现损失函数的最小化,更新公式为 xt+1=xtηf(xt)\mathbf{x}_{t+1} = \mathbf{x}_t - \eta \nabla f(\mathbf{x}_t),其中 η\eta 为学习率。

几个常用的标量-向量导数恒等式如下:

  • (aTx)x=a\frac{\partial (\mathbf{a}^\mathsf{T} \mathbf{x})}{\partial \mathbf{x}} = \mathbf{a},其中 aRn\mathbf{a} \in \mathbb{R}^n 为常向量。此即线性函数的梯度,表明线性函数的变化率在任意点均相同。
  • (xTAx)x=(A+AT)x\frac{\partial (\mathbf{x}^\mathsf{T} \mathbf{A} \mathbf{x})}{\partial \mathbf{x}} = (\mathbf{A} + \mathbf{A}^\mathsf{T}) \mathbf{x},其中 ARn×n\mathbf{A} \in \mathbb{R}^{n \times n} 为常数矩阵。若 A\mathbf{A}对称矩阵,则简化为 2Ax2\mathbf{A}\mathbf{x}。此即二次型的梯度,在多元正态分布的概率密度函数求导中反复出现。
  • x22x=2x\frac{\partial \|\mathbf{x}\|_2^2}{\partial \mathbf{x}} = 2\mathbf{x},即欧几里得范数平方的梯度,在岭回归(Ridge Regression)、支持向量机(SVM)和正则化项中频繁出现。

此外,若 A\mathbf{A} 为对称矩阵,二次型 xTAx\mathbf{x}^\mathsf{T}\mathbf{A}\mathbf{x} 的二阶导数即海森矩阵为 2A2\mathbf{A},由此可直接判断二次函数的凹凸性:若 A\mathbf{A} 半正定则函数为凸函数,若 A\mathbf{A} 半负定则函数为凹函数。

向量关于向量的导数

f:RnRm\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m 为向量值函数,写作 f(x)=[f1(x),f2(x),,fm(x)]T\mathbf{f}(\mathbf{x}) = [f_1(\mathbf{x}), f_2(\mathbf{x}), \ldots, f_m(\mathbf{x})]^\mathsf{T}。在分子布局下的导数即为雅可比矩阵

fx=[f1x1f1x2f1xnf2x1f2x2f2xnfmx1fmx2fmxn].\frac{\partial \mathbf{f}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n} \end{bmatrix}.

雅可比矩阵描述了向量函数在 x\mathbf{x} 处的局部线性逼近,相当于单变量导数的向量推广。线性映射 f(x)=Ax\mathbf{f}(\mathbf{x}) = \mathbf{A}\mathbf{x}ARm×n\mathbf{A} \in \mathbb{R}^{m \times n})的雅可比矩阵恰为 A\mathbf{A} 本身。使用雅可比矩阵,可以写出向量函数的一阶泰勒展开:

f(x+Δx)f(x)+fxΔx.\mathbf{f}(\mathbf{x} + \Delta \mathbf{x}) \approx \mathbf{f}(\mathbf{x}) + \frac{\partial \mathbf{f}}{\partial \mathbf{x}} \Delta \mathbf{x}.

标量关于矩阵的导数

当自变量为矩阵时,导数运算进一步推广至高维情形。设 f:Rm×nRf: \mathbb{R}^{m \times n} \to \mathbb{R} 为标量函数,XRm×n\mathbf{X} \in \mathbb{R}^{m \times n} 为矩阵自变量。则 ff 关于 X\mathbf{X}梯度是一个与 X\mathbf{X} 同维度的矩阵,其第 (i,j)(i,j) 元素为:

(fX)ij=fXij.\left( \frac{\partial f}{\partial \mathbf{X}} \right)_{ij} = \frac{\partial f}{\partial X_{ij}}.

以下是一些常用恒等式:

  • (aTXb)X=abT\frac{\partial (\mathbf{a}^\mathsf{T} \mathbf{X} \mathbf{b})}{\partial \mathbf{X}} = \mathbf{a} \mathbf{b}^\mathsf{T},其中 aRm\mathbf{a} \in \mathbb{R}^mbRn\mathbf{b} \in \mathbb{R}^n
  • (aTXTb)X=baT\frac{\partial (\mathbf{a}^\mathsf{T} \mathbf{X}^\mathsf{T} \mathbf{b})}{\partial \mathbf{X}} = \mathbf{b} \mathbf{a}^\mathsf{T}
  • tr(X)X=I\frac{\partial \operatorname{tr}(\mathbf{X})}{\partial \mathbf{X}} = \mathbf{I},其中 tr()\operatorname{tr}(\cdot) 表示矩阵的迹(Trace)。
  • det(X)X=det(X)(X1)T\frac{\partial \det(\mathbf{X})}{\partial \mathbf{X}} = \det(\mathbf{X}) (\mathbf{X}^{-1})^\mathsf{T},假设 X\mathbf{X} 可逆,其中 det\det行列式
  • tr(X1A)X=(X1AX1)T\frac{\partial \operatorname{tr}(\mathbf{X}^{-1} \mathbf{A})}{\partial \mathbf{X}} = -(\mathbf{X}^{-1} \mathbf{A} \mathbf{X}^{-1})^\mathsf{T}
  • logdet(X)X=(X1)T\frac{\partial \log \det(\mathbf{X})}{\partial \mathbf{X}} = (\mathbf{X}^{-1})^\mathsf{T},在最大似然估计多元正态分布的推导中尤为重要。

链式法则

矩阵微积分中的链式法则(Chain Rule)是单变量微积分链式法则的自然推广。考虑复合函数 h(x)=f(g(x))h(\mathbf{x}) = f(g(\mathbf{x})),其中 g:RnRmg: \mathbb{R}^n \to \mathbb{R}^mf:RmRf: \mathbb{R}^m \to \mathbb{R}。则:

hx=(gx)Tfg.\frac{\partial h}{\partial \mathbf{x}} = \left( \frac{\partial g}{\partial \mathbf{x}} \right)^\mathsf{T} \frac{\partial f}{\partial g}.

在分子布局下,若 g:RnRmg: \mathbb{R}^n \to \mathbb{R}^mf:RmRpf: \mathbb{R}^m \to \mathbb{R}^p,则复合函数 h(x)=f(g(x))h(\mathbf{x}) = f(g(\mathbf{x})) 的雅可比矩阵为两矩阵之积:

hx=fggx,\frac{\partial h}{\partial \mathbf{x}} = \frac{\partial f}{\partial g} \cdot \frac{\partial g}{\partial \mathbf{x}},

其中右侧矩阵乘法的维度分别为 p×mp \times mm×nm \times n,结果为 p×np \times n。这一法则构成了深度学习反向传播算法(Backpropagation)的理论基石,通过递归应用链式法则沿计算图逐层回传误差梯度。

二阶导数与海森矩阵

对于标量函数 f:RnRf: \mathbb{R}^n \to \mathbb{R},其二阶导数构成海森矩阵(Hessian Matrix)HRn×n\mathbf{H} \in \mathbb{R}^{n \times n}

H(f)=2fxxT=[2fx122fx1x22fx1xn2fx2x12fx222fx2xn2fxnx12fxnx22fxn2].\mathbf{H}(f) = \frac{\partial^2 f}{\partial \mathbf{x} \partial \mathbf{x}^\mathsf{T}} = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}.

ff 的二阶偏导数连续,则海森矩阵为对称矩阵,此即施瓦茨定理(Schwarz's Theorem)或克莱罗定理(Clairaut's Theorem)的直接推论。海森矩阵在牛顿法(Newton's Method)和最优化问题的二阶条件(Second-Order Conditions)中起关键作用:局部极小值要求梯度为零且海森矩阵正定;局部极大值则要求海森矩阵负定。海森矩阵的特征值分解还可以揭示函数在极值点附近的曲率信息。

重要应用

矩阵微积分在现代统计学计量经济学中应用极为广泛。在线性回归最小二乘法估计中,损失函数 L(β)=yXβ22L(\boldsymbol{\beta}) = \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|_2^2 关于系数向量 β\boldsymbol{\beta} 的梯度为 2XT(Xβy)2\mathbf{X}^\mathsf{T}(\mathbf{X}\boldsymbol{\beta} - \mathbf{y}),令其为零即导出正规方程 XTXβ^=XTy\mathbf{X}^\mathsf{T}\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}^\mathsf{T}\mathbf{y}。在最大似然估计中,矩阵求导贯穿于得分函数(Score Function)和费雪信息矩阵(Fisher Information Matrix)的推导全过程。在广义矩估计(GMM)和两阶段最小二乘法(2SLS)中,矩阵微积分也是推导估计量渐近协方差矩阵的基础工具。此外,在多元统计中的主成分分析(PCA)和线性判别分析(LDA)中,约束优化问题的求解同样依赖于矩阵微积分框架。

总之,矩阵微积分通过将标量导数的直观概念系统性地扩展至高维空间,为现代数据科学、经济学和工程学中的复杂参数推断与数值优化提供了不可或缺的数学语言与分析工具。