ARTICLE

局部极小值

局部极小值 (Local Minimum) 局部极小值(也称相对极小值)是数学分析和最优化理论中的核心概念。对于一个定义在某一集合上的实值函数 f,若在自变量空间的某个邻域内,函数在该点的取值不大于该邻域内所有其他点的函数值,则称该点为函数的局部极小值点。局部极小值与全局极小值的根本区别在于:全局极小值要求函数在整个定义域上取得最小值,而局部极小值仅要求在某

浏览 5 更新 2026-07-14

局部极小值 (Local Minimum)

局部极小值(也称相对极小值)是数学分析最优化理论中的核心概念。对于一个定义在某一集合上的实值函数 ff,若在自变量空间的某个邻域内,函数在该点的取值不大于该邻域内所有其他点的函数值,则称该点为函数的局部极小值点。局部极小值与全局极小值的根本区别在于:全局极小值要求函数在整个定义域上取得最小值,而局部极小值仅要求在某个足够小的局部区域内为最小值。在实际的优化问题中,尤其是非凸优化领域,往往存在大量局部极小值,找到全局极小值通常是计算上极为困难的任务。

严格定义与数学表述

XX 为一个度量空间(或更一般的拓扑空间),函数 f:XRf: X \to \mathbb{R}。点 xXx^* \in X 称为 ff 的一个局部极小值点,若存在 δ>0\delta > 0,使得对所有满足 d(x,x)<δd(x, x^*) < \deltaxXx \in X,有 f(x)f(x)f(x^*) \leq f(x)。若该不等式对 xxx \neq x^* 严格成立,则称 xx^*严格局部极小值点

对于光滑函数 f:RnRf: \mathbb{R}^n \to \mathbb{R},局部极小值的必要条件是一阶条件:梯度为零向量,即 f(x)=0\nabla f(x^*) = 0。满足该条件的点称为驻点(或稳定点)。二阶必要条件则要求海森矩阵 2f(x)\nabla^2 f(x^*) 为半正定矩阵;若海森矩阵正定,则一阶和二阶条件共同构成了局部极小值的充分条件。这些条件的严格版本构成了无约束优化的理论基础。

局部极小值与全局极小值的关系

在多维凸优化中,局部极小值与全局极小值之间的区别消失——对于一个凸函数,任何局部极小值一定是全局极小值。这一性质使得凸优化问题具有"唯一解"的可处理性,也是线性规划凸规划在理论上如此成功的原因。然而,在非凸优化中(如深度学习中的神经网络训练),损失曲面往往布满大量局部极小值、鞍点平台区域。近年来关于高维随机函数的理论研究表明,在高维空间中,大多数局部极小值在函数值上往往接近全局极小值——这一现象为深度学习的实践可解性提供了部分理论支撑。

在机器学习和优化算法中的意义

梯度下降法与局部极小值

梯度下降法是求解无约束优化问题最常用的迭代算法,其基本形式为 xk+1=xkαkf(xk)x_{k+1} = x_k - \alpha_k \nabla f(x_k)。该算法天然具有"寻找局部极小值"而非"寻找全局极小值"的特性:它沿着负梯度方向前进,直到梯度为零处(即驻点)停止。然而,梯度下降法不能区分局部极小值、局部极大值鞍点——在鞍点处梯度同样为零,但函数尚未达到局部极小。针对这一问题,随机梯度下降(SGD)通过引入随机噪声,从理论上具有逃离鞍点和不利局部极小值的动力;动量方法Adam等自适应学习率方法则进一步改进了算法在高维非凸曲面上的收敛行为。

局部极小值 vs. 鞍点

在高维非凸优化中,鞍点的数量通常远超局部极小值。对于一般的高维光滑函数,海森矩阵的特征值为正和负的概率大致相等,这意味着临界点更可能是鞍点而非局部极值。这一洞察最早由 Bray \& Dean (2007) 在自旋玻璃理论和随机矩阵理论中提出,后经 Choromanska et al. (2015) 引入机器学习领域。因此,现代优化算法的重点从"跳出局部极小值"部分地转向"快速穿越鞍点区域"——这正是牛顿法拟牛顿法(如 L-BFGS)通过利用二阶曲率信息所能实现的改进。

模拟退火与全局优化

对于需要寻找全局最小值而非局部最小值的问题,模拟退火(Simulated Annealing)提供了经典的概率性策略。该方法受统计力学退火过程的启发,引入"温度"参数控制接受较差解的概率:初始高温状态下算法广泛探索搜索空间,温度逐渐降低后算法收敛到某个局部极小值。Metropolis-Hastings准则保证了该过程在理论上以概率1收敛到全局最优,但这一收敛通常需要无限长的时间。其他全局优化方法还包括遗传算法粒子群优化贝叶斯优化分支定界法等。

在经济学中的局部极小值概念

微观经济学中,局部极小值的概念贯穿于厂商理论消费者理论成本最小化问题——给定产出水平选择要素投入组合使得总成本最小——是一个标准的局部优化问题,其一阶条件给出边际技术替代率等于要素价格比率的经典条件。利润最大化问题同样涉及目标函数的临界点分析。在多市场均衡模型中,纳什均衡的计算往往被表述为每个博弈参与者的个人最优化问题,而局部极小值分析构成了验证均衡稳定性的基础工具。

计量经济学中,极大似然估计(MLE)的求解本质上是寻找对数似然函数的局部极大值(等价于负对数似然的局部极小值)。当似然函数为非凹时,EM算法牛顿-拉夫森算法BHHH算法等数值方法只能保证收敛到局部最优,这要求研究者通过多起点搜索来增强对全局最优的信心。广义矩估计(GMM)和非线性最小二乘同样面临局部极值问题,实践中常采用随机起始点和梯度检验等诊断手段。

扩展与前沿话题

多局部极小值的计算复杂度:计算复杂性理论中,寻找一般(非凸)函数的全局极小值属于NP-难问题,而判断一个函数是否具有局部极小值属于PPAD类问题。这一复杂性界限解释了为什么实际优化算法通常满足于局部最优解。

损失景观与隐式正则化:深度学习中,过参数化神经网络的经验损失景观呈现高度对称性和连通性——研究表明,不同的局部极小值之间往往存在低损失的连通路径(即通过模式连通性,Garipov et al., 2018),这意味着许多看似不同的局部极小值在函数值上彼此接近,且在某种意义上是"同一个"最优解在不同参数基底下的表现。隐式正则化理论进一步表明,SGD的动力学行为天然偏向于泛化性能更好的局部极小值。

随机矩阵理论:高维随机函数的临界点统计性质可通过随机矩阵理论分析。当函数由随机参数决定时,局部极小值的数量和函数值分布服从可预测的规律。这一方向的成果已应用于神经网络初始化策略和学习率调度方法的设计。

全局优化中的凸松弛许多非凸优化问题可通过将可行域放松为凸集来高效近似求解全局最优值。半定规划松弛和拉格朗日松弛是最常见的两种技术,在组合优化信号处理中具有广泛应用。