ARTICLE

Hesse矩阵

Hesse矩阵 (Hessian Matrix) Hesse矩阵(Hessian Matrix)是多元微积分与最优化理论中的核心工具,定义为标量值函数 f: R^n R 的所有二阶偏导数构成的 n n 方阵。对于 C^2 类函数 f(x_1, x_2, , x_n),其 Hesse 矩阵 H_f 或 ^2 f 的形式为: \& \& \& \\ 基本性质 根

浏览 2 更新 2025-10-29

Hesse矩阵 (Hessian Matrix)

Hesse矩阵(Hessian Matrix)是多元微积分与最优化理论中的核心工具,定义为标量值函数 f:RnRf: \mathbb{R}^n \to \mathbb{R} 的所有二阶偏导数构成的 n×nn \times n 方阵。对于 C2C^2 类函数 f(x1,x2,,xn)f(x_1, x_2, \dots, x_n),其 Hesse 矩阵 HfH_f2f\nabla^2 f 的形式为:

H_f(\mathbf{x}) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\

\vdots \& \vdots \& \ddots \& \vdots \\

\frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}

基本性质

根据 施瓦茨定理(Schwarz's Theorem / Clairaut's Theorem),若 ff 的二阶偏导数连续,则混合偏导数的求导次序可交换:

2fxixj=2fxjxi\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i}

此时 Hesse 矩阵为实对称矩阵,即 Hf=HfTH_f = H_f^T。这一对称性大大简化了后续的谱分析。

二阶泰勒展开

Hesse 矩阵的核心应用之一在于多元函数的二阶泰勒展开。在点 x0\mathbf{x}_0 处:

f(x0+Δx)f(x0)+f(x0)TΔx+12ΔxTHf(x0)Δxf(\mathbf{x}_0 + \Delta\mathbf{x}) \approx f(\mathbf{x}_0) + \nabla f(\mathbf{x}_0)^T \Delta\mathbf{x} + \frac{1}{2} \Delta\mathbf{x}^T H_f(\mathbf{x}_0) \Delta\mathbf{x}

其中 f\nabla f梯度向量,二次项由 Hesse 矩阵刻画了函数在驻点附近的局部曲率信息——梯度告诉我们在哪里停下,Hesse 告诉我们停下来之后的地形是什么形状。

极值判别的二阶条件

x\mathbf{x}^*ff 的驻点(即 f(x)=0\nabla f(\mathbf{x}^*) = \mathbf{0}),则:

  • Hf(x)H_f(\mathbf{x}^*) 正定(所有特征值 >0> 0),则 x\mathbf{x}^*严格局部极小点
  • Hf(x)H_f(\mathbf{x}^*) 负定(所有特征值 <0< 0),则 x\mathbf{x}^*严格局部极大点
  • Hf(x)H_f(\mathbf{x}^*) 同时具有正、负特征值(不定),则 x\mathbf{x}^*鞍点
  • Hf(x)H_f(\mathbf{x}^*) 半正定或半负定但非严格定号,则二阶条件无法判定,需借助更高阶信息。

对于二元函数 f(x,y)f(x, y),可直接使用行列式判据:设 D=fxxfyy(fxy)2D = f_{xx}f_{yy} - (f_{xy})^2(即 Hesse 行列式),若 D>0D > 0fxx>0f_{xx} > 0 则极小,若 D>0D > 0fxx<0f_{xx} < 0 则极大,若 D<0D < 0 则为鞍点。

凸性判定

Hesse 矩阵是判断函数凹凸性的最强工具:ff凸函数当且仅当 x\forall \mathbf{x}Hf(x)H_f(\mathbf{x}) 半正定;ff 为严格凸函数当 Hf(x)H_f(\mathbf{x}) 正定。这直接联系了局部曲率与全局形状,是凸优化理论的基石。

加边 Hesse 矩阵与约束优化

拉格朗日乘子法中,需使用加边 Hesse 矩阵(Bordered Hessian)判断约束极值:

\bar{H} = \begin{bmatrix}

0\mathbf{0} \& \nabla g^T \\ \nabla g \& H\_{L\mathcal{L}}

\end{bmatrix}

其中 L\mathcal{L} 为拉格朗日函数,gg 为等式约束。通过检查加边主子式的符号变化,可判定约束条件下驻点的极值类型,该方法广泛应用于经济学中的效用最大化与成本最小化问题。

在数值优化中的应用

Hesse 矩阵是牛顿法的核心:迭代公式 xk+1=xkHf(xk)1f(xk)\mathbf{x}_{k+1} = \mathbf{x}_k - H_f(\mathbf{x}_k)^{-1} \nabla f(\mathbf{x}_k) 利用二阶曲率信息实现二次收敛速度。在实际计算中,为避免显式求逆和 Hesse 矩阵构造的高昂成本,衍生出了拟牛顿法(如 BFGS、DFP 算法),用低秩更新逼近 Hesse 矩阵或其逆矩阵。

经济学应用

微观经济学中,Hesse 矩阵的负定/半负定性对应了严格拟凹效用函数的存在性条件,也是利润函数凸性检验的工具。在计量经济学中,极大似然估计信息矩阵(Fisher Information Matrix)正是对数似然函数 Hesse 矩阵期望值的负值,其逆矩阵给出参数估计的克拉默-拉奥下界。在广义矩估计(GMM)中,Hesse 矩阵同样参与渐近方差的计算,是统计推断不可或缺的部分。