ARTICLE

海森矩阵 (Hessian Matrix)

海森矩阵 (Hessian Matrix) 海森矩阵(Hessian Matrix),亦称黑塞矩阵或Hesse矩阵,是多元微积分与最优化理论中的核心概念,定义为标量值函数 f: R^n R 的所有二阶偏导数构成的 n n 方阵。对于C^2 类函数 f(x_1, x_2, , x_n),其海森矩阵 H_f 或 ^2 f 在点 x 处的表达式为: \& \& \

浏览 0 更新 2025-10-29

海森矩阵 (Hessian Matrix)

海森矩阵(Hessian Matrix),亦称黑塞矩阵Hesse矩阵,是多元微积分最优化理论中的核心概念,定义为标量值函数 f:RnRf: \mathbb{R}^n \to \mathbb{R} 的所有二阶偏导数构成的 n×nn \times n 方阵。对于C2C^2 类函数 f(x1,x2,,xn)f(x_1, x_2, \dots, x_n),其海森矩阵 HfH_f2f\nabla^2 f 在点 x\mathbf{x} 处的表达式为:

H_f(\mathbf{x}) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\

\vdots \& \vdots \& \ddots \& \vdots \\

\frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}

其第 (i,j)(i, j) 元素为 (Hf(x))ij=2f(x)/xixj(H_f(\mathbf{x}))_{ij} = \partial^2 f(\mathbf{x}) / \partial x_i \partial x_j。海森矩阵可视为梯度向量 f\nabla f 的雅可比矩阵,因而也常用 2f\nabla^2 f 表示。该矩阵以19世纪德国数学家路德维希·奥托·黑塞(Ludwig Otto Hesse)命名,是对单变量函数二阶导数概念的自然推广。

对称性:施瓦茨定理

ff 的所有二阶偏导数在定义域内连续,则根据克莱罗定理(Clairaut's Theorem,亦称施瓦茨定理),混合偏导数的求导次序可交换:

2fxixj=2fxjxi\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i}

此时海森矩阵为实对称矩阵,即 Hf=HfTH_f = H_f^{\mathsf{T}}。对称性确保海森矩阵的特征值均为实数,从而可通过谱分解进行正定性分析,同时也简化了数值计算中的存储与运算。

二阶泰勒展开与曲率刻画

海森矩阵的核心作用体现在多元函数的二阶泰勒展开中。在点 x0\mathbf{x}_0 附近:

f(x0+Δx)=f(x0)+f(x0)TΔx+12ΔxTHf(x0)Δx+o(Δx2)f(\mathbf{x}_0 + \Delta\mathbf{x}) = f(\mathbf{x}_0) + \nabla f(\mathbf{x}_0)^{\mathsf{T}} \Delta\mathbf{x} + \frac{1}{2} \Delta\mathbf{x}^{\mathsf{T}} H_f(\mathbf{x}_0) \Delta\mathbf{x} + o(\|\Delta\mathbf{x}\|^2)

二次项 12ΔxTHf(x0)Δx\frac{1}{2} \Delta\mathbf{x}^{\mathsf{T}} H_f(\mathbf{x}_0) \Delta\mathbf{x} 精确描述了函数在 x0\mathbf{x}_0 处的局部曲率。海森矩阵的特征向量指示了曲率的主方向,对应的特征值则给出了各方向上的曲率大小。正特征值对应向上弯曲(凹向上),负特征值对应向下弯曲(凹向下),这正是极值判别的几何基础。

无约束极值的二阶条件

x\mathbf{x}^*ff 的驻点,即 f(x)=0\nabla f(\mathbf{x}^*) = \mathbf{0}。在该点处,泰勒展开的一阶项消失,函数的变化完全由二次项决定:

f(x)f(x)12(xx)THf(x)(xx)f(\mathbf{x}) - f(\mathbf{x}^*) \approx \frac{1}{2} (\mathbf{x} - \mathbf{x}^*)^{\mathsf{T}} H_f(\mathbf{x}^*) (\mathbf{x} - \mathbf{x}^*)

根据海森矩阵的定号性,可得如下判别准则:

  • Hf(x)H_f(\mathbf{x}^*) 正定(全部特征值 >0> 0),则 x\mathbf{x}^*严格局部极小点
  • Hf(x)H_f(\mathbf{x}^*) 负定(全部特征值 <0< 0),则 x\mathbf{x}^*严格局部极大点
  • Hf(x)H_f(\mathbf{x}^*) 不定(同时有正、负特征值),则 x\mathbf{x}^*鞍点
  • Hf(x)H_f(\mathbf{x}^*) 半正定或半负定但非严格定号(存在零特征值),则二阶条件失效,需借助更高阶信息判定。

对于二元函数 f(x,y)f(x, y),可直接使用行列式判据:设 D=fxxfyy(fxy)2D = f_{xx} f_{yy} - (f_{xy})^2,则 D>0D > 0fxx>0f_{xx} > 0 对应极小,D>0D > 0fxx<0f_{xx} < 0 对应极大,D<0D < 0 对应鞍点。

凸性判定

海森矩阵是判断函数凸性的强有力工具。对于二阶可微函数 ff

  • ff凸函数当且仅当海森矩阵在定义域内处处半正定
  • ff严格凸函数当海森矩阵处处正定
  • 类似地,ff凹函数当且仅当海森矩阵处处半负定

这一联系将局部曲率信息(海森矩阵的特征值符号)与全局形状特征(凸性)统一起来,构成了凸优化理论的基石。在计量经济学极大似然估计中,对数似然函数海森矩阵的负定性保证了似然函数的凹性和极大值点的唯一性。

约束优化:加边海森矩阵

在等式约束优化问题 minf(x)\min f(\mathbf{x}) s.t. g(x)=0g(\mathbf{x}) = \mathbf{0} 中,需要使用加边海森矩阵(Bordered Hessian)进行极值判断。设拉格朗日函数为 L(x,λ)=f(x)+λTg(x)\mathcal{L}(\mathbf{x}, \lambda) = f(\mathbf{x}) + \lambda^{\mathsf{T}} g(\mathbf{x}),则加边海森矩阵定义为:

\bar{H} = \begin{bmatrix}

0\mathbf{0} \& \nabla g^{\mathsf{T}} \\ \nabla g \& \nabla\_{x\mathbf{x}x\mathbf{x}}^2 L\mathcal{L}

\end{bmatrix}

通过检查加边主子式的符号变化规律,可判定约束驻点的极值类型。该方法在微观经济学消费者理论生产者理论中广泛应用——检验效用最大化成本最小化的二阶条件时,加边海森矩阵是标准工具。

数值优化中的应用

海森矩阵在数值优化算法中扮演关键角色:

  • 牛顿法:迭代公式 xk+1=xkHf(xk)1f(xk)\mathbf{x}_{k+1} = \mathbf{x}_k - H_f(\mathbf{x}_k)^{-1} \nabla f(\mathbf{x}_k) 利用二阶曲率信息实现二次收敛速度,在接近最优解时收敛极快。
  • 拟牛顿法(如 BFGS、DFP 算法):避免直接计算海森矩阵,通过梯度差分的低秩更新逐步逼近海森矩阵或其逆矩阵,兼顾超线性收敛速度与计算可行性。
  • 信赖域方法:利用海森矩阵构建局部二次模型,在信赖域内求解子问题以确定步长。

在大规模优化问题中,海森矩阵的规模可能极大(如深度学习中参数达百万级),此时共轭梯度法L-BFGS等不需要显式构造海森矩阵的算法更为实用。

经济学中的典型应用

在经济学中,海森矩阵贯穿于多个核心领域:

综上,海森矩阵作为多元函数局部曲率的完整描述,不仅是最优化理论凸分析的数学基础,更是连接理论模型与实证推断的关键桥梁,在经济学的理论推导、数值计算与统计推断中发挥着不可替代的作用。