Hesse矩阵 (Hessian Matrix)
Hesse矩阵(Hessian Matrix)是多元微积分与最优化理论中的核心工具,定义为标量值函数 f:Rn→R 的所有二阶偏导数构成的 n×n 方阵。对于 C2 类函数 f(x1,x2,…,xn),其 Hesse 矩阵 Hf 或 ∇2f 的形式为:
H_f(\mathbf{x}) = \begin{bmatrix}
\frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\
\frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\
\vdots \& \vdots \& \ddots \& \vdots \\
\frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2}
\end{bmatrix}
基本性质
根据 施瓦茨定理(Schwarz's Theorem / Clairaut's Theorem),若 f 的二阶偏导数连续,则混合偏导数的求导次序可交换:
∂xi∂xj∂2f=∂xj∂xi∂2f
此时 Hesse 矩阵为实对称矩阵,即 Hf=HfT。这一对称性大大简化了后续的谱分析。
二阶泰勒展开
Hesse 矩阵的核心应用之一在于多元函数的二阶泰勒展开。在点 x0 处:
f(x0+Δx)≈f(x0)+∇f(x0)TΔx+21ΔxTHf(x0)Δx
其中 ∇f 为梯度向量,二次项由 Hesse 矩阵刻画了函数在驻点附近的局部曲率信息——梯度告诉我们在哪里停下,Hesse 告诉我们停下来之后的地形是什么形状。
极值判别的二阶条件
设 x∗ 为 f 的驻点(即 ∇f(x∗)=0),则:
- 若 Hf(x∗) 正定(所有特征值 >0),则 x∗ 为严格局部极小点。
- 若 Hf(x∗) 负定(所有特征值 <0),则 x∗ 为严格局部极大点。
- 若 Hf(x∗) 同时具有正、负特征值(不定),则 x∗ 为鞍点。
- 若 Hf(x∗) 半正定或半负定但非严格定号,则二阶条件无法判定,需借助更高阶信息。
对于二元函数 f(x,y),可直接使用行列式判据:设 D=fxxfyy−(fxy)2(即 Hesse 行列式),若 D>0 且 fxx>0 则极小,若 D>0 且 fxx<0 则极大,若 D<0 则为鞍点。
凸性判定
Hesse 矩阵是判断函数凹凸性的最强工具:f 为凸函数当且仅当 ∀x,Hf(x) 半正定;f 为严格凸函数当 Hf(x) 正定。这直接联系了局部曲率与全局形状,是凸优化理论的基石。
加边 Hesse 矩阵与约束优化
在拉格朗日乘子法中,需使用加边 Hesse 矩阵(Bordered Hessian)判断约束极值:
\bar{H} = \begin{bmatrix}
0 \& \nabla g^T \\ \nabla g \& H\_{L}
\end{bmatrix}
其中 L 为拉格朗日函数,g 为等式约束。通过检查加边主子式的符号变化,可判定约束条件下驻点的极值类型,该方法广泛应用于经济学中的效用最大化与成本最小化问题。
在数值优化中的应用
Hesse 矩阵是牛顿法的核心:迭代公式 xk+1=xk−Hf(xk)−1∇f(xk) 利用二阶曲率信息实现二次收敛速度。在实际计算中,为避免显式求逆和 Hesse 矩阵构造的高昂成本,衍生出了拟牛顿法(如 BFGS、DFP 算法),用低秩更新逼近 Hesse 矩阵或其逆矩阵。
经济学应用
在微观经济学中,Hesse 矩阵的负定/半负定性对应了严格拟凹效用函数的存在性条件,也是利润函数凸性检验的工具。在计量经济学中,极大似然估计的信息矩阵(Fisher Information Matrix)正是对数似然函数 Hesse 矩阵期望值的负值,其逆矩阵给出参数估计的克拉默-拉奥下界。在广义矩估计(GMM)中,Hesse 矩阵同样参与渐近方差的计算,是统计推断不可或缺的部分。