ARTICLE

全局最小值

全局最小值 (Global Minimum) 全局最小值 (Global Minimum) 是优化理论和数学分析中的核心概念,指在一个函数的整个定义域内,函数所能取到的最小函数值。与仅要求在某个局部邻域内最小的局部最小值不同,全局最小值要求该点的函数值不大于定义域中任何其他点的函数值。形象地说,如果函数的图像是一片山脉,局部最小值对应每一个山谷的谷底,而全局

浏览 8 更新 2025-10-26

全局最小值 (Global Minimum)

全局最小值 (Global Minimum) 是优化理论数学分析中的核心概念,指在一个函数的整个定义域内,函数所能取到的最小函数值。与仅要求在某个局部邻域内最小的局部最小值不同,全局最小值要求该点的函数值不大于定义域中任何其他点的函数值。形象地说,如果函数的图像是一片山脉,局部最小值对应每一个山谷的谷底,而全局最小值则是整片山脉中海拔最低的那个谷底。

I. 形式化定义

f:SR f: S \to \mathbb{R} 是定义在集合 S S 上的实值函数。

定义:点 xS x^* \in S 被称为一个 全局最小值点 (global minimum point),如果对于所有 xS x \in S ,都有

f(x)f(x)f(x^*) \le f(x)

成立。此时,f(x) f(x^*) 称为函数 f f S S 上的 全局最小值 (global minimum value)。

有时也用记号:

x=argminxSf(x),f(x)=minxSf(x)x^* = \arg\min_{x \in S} f(x), \quad f(x^*) = \min_{x \in S} f(x)
  • 若对于所有 xx x \neq x^* 均有严格不等式 f(x)<f(x) f(x^*) < f(x) 成立,则称 x x^* 严格全局最小值点 (strict global minimum point)。
  • 如果 S S 是紧集(有界闭集)且 f f S S 上连续,则根据魏尔斯特拉斯定理 (Weierstrass Theorem),f f S S 上一定存在全局最大值和全局最小值。这是确保全局最小值存在的一个基本充分条件。

与局部最小值的本质区别在于:局部最小值仅需在某个半径 δ>0 \delta > 0 的邻域 {xS:xx0<δ} \{x \in S: \|x - x_0\| < \delta\} 内满足最优性;而全局最小值必须在整个定义域 S S 上满足最优性。因此,全局最小值一定是局部最小值,但局部最小值未必是全局最小值

II. 凸性与全局最小值

在一般的非凸函数中,可能存在多个局部最小值,其中只有一个是全局最小值(或同时存在多个函数值相等的全局最小值)。这使得寻找全局最小值在计算上变得困难。然而,对于一类特殊的函数——凸函数,问题大大简化。

定理(凸函数的全局最优性):设 f:SR f: S \to \mathbb{R} 是定义在凸集 SRn S \subseteq \mathbb{R}^n 上的凸函数。若 xS x^* \in S f f 的一个局部最小值点,则 x x^* 也是 f f S S 上的全局最小值点。

证明思路(反证法):假设存在 yS y \in S 使得 f(y)<f(x) f(y) < f(x^*) 。考虑连接 x x^* y y 的线段上的点 xλ=(1λ)x+λy x_\lambda = (1 - \lambda)x^* + \lambda y ,其中 λ(0,1) \lambda \in (0, 1) 。由 f f 的凸性:

f(xλ)(1λ)f(x)+λf(y)<(1λ)f(x)+λf(x)=f(x)f(x_\lambda) \le (1 - \lambda)f(x^*) + \lambda f(y) < (1 - \lambda)f(x^*) + \lambda f(x^*) = f(x^*)

λ0 \lambda \to 0 时,xλ x_\lambda 可以任意接近 x x^* ,而 f(xλ)<f(x) f(x_\lambda) < f(x^*) ,这与 x x^* 是局部最小值矛盾。 \square

这个定理的重要性在于:对于凸优化问题,任何能够找到局部最小值的算法(如梯度下降法)都能保证找到全局最小值。类似地,对于凹函数,任何局部最大值也一定是全局最大值。

III. 一阶与二阶条件

A. 单变量函数

对于单变量函数 f(x) f(x) ,若 x x^* 是内点全局最小值且 f f x x^* 处可导,则一阶必要条件 f(x)=0 f'(x^*) = 0 与局部最小值一致。但仅凭导数条件无法区分局部与全局最小值——f(x)=0 f'(x^*) = 0 临界点可能是局部最小值、局部最大值、拐点或全局最小值。

一个实用的充分条件:若 f f 在整个定义域上是凸函数(即 f(x)0 f''(x) \ge 0 对所有 x x 成立),且 f(x)=0 f'(x^*) = 0 ,则 x x^* 是全局最小值点。在严格凸(f(x)>0 f''(x) > 0 )的情况下,该全局最小值还是唯一的。

B. 多变量函数

对于多变量函数 f:RnR f: \mathbb{R}^n \to \mathbb{R}

  • 一阶必要条件:若 x x^* 是内点全局最小值且 f f x x^* 处可微,则梯度 f(x)=0 \nabla f(x^*) = \mathbf{0}
  • 二阶条件与凸性:若 f f 是二次可微的,则 f f 是凸函数当且仅当其Hessian矩阵 Hf(x) H_f(x) 对所有 x x 都是半正定的。此时,任何满足 f(x)=0 \nabla f(x^*) = \mathbf{0} 的点 x x^* 都是全局最小值点。若 Hessian 矩阵对所有 x x 都是正定矩阵,则全局最小值唯一。

IV. 全局优化方法

对于非凸函数,存在多个局部最小值,寻找全局最小值成为一个具有挑战性的问题。以下是几类主要的全局优化方法:

A. 确定性方法

  1. 分支定界法 (Branch and Bound):将可行域递归地划分为子区域,对每个子区域计算目标函数的下界,剪除不可能包含全局最小值的子区域。常用于混合整数规划。
  1. 外逼近与割平面法:通过构造一系列松弛问题逐步逼近原非凸问题的全局最优解。

这类方法可以严格保证收敛到全局最优,但计算成本通常很高,在高维问题上往往不实用。

B. 随机与启发式方法

  1. 多起点策略 (Multi-start):从定义域中随机选取多个不同的初始点,分别运行局部优化算法(如梯度下降),取所有结果中的最小值。这是最简单且在实践中被广泛使用的方法。
  1. 模拟退火 (Simulated Annealing):受物理学中退火过程的启发,算法以一定概率接受使目标函数值上升的移动(即"上坡"移动),从而有能力跳出局部最小值,继续探索定义域中的其他区域。接受上坡移动的概率随"温度"参数的降低而逐渐减小。
  1. 遗传算法 (Genetic Algorithm):模拟自然选择过程,维护一个候选解的"种群",通过选择、交叉和变异操作不断演化。种群中的多样性使得算法能够同时探索多个区域,降低被单一局部最小值困住的风险。
  1. 粒子群优化 (Particle Swarm Optimization)、差分进化 (Differential Evolution) 等进化计算方法。

随机方法不保证在有限步内找到全局最优,但在实践中对许多复杂问题表现出色。

V. 在经济与金融学中的应用

全局最小值概念在经济和金融的优化问题中扮演着关键角色:

  • 经济学:企业理论中,厂商的利润最大化问题和成本最小化问题本质上都是全局优化问题。在具有规模经济和范围经济的不完全竞争市场中,成本函数或利润函数可能是非凸的,存在多个局部最优产量水平。如果企业仅因"惯性"停留在局部最优而非全局最优的产量上,会导致效率损失。
  • 金融学马科维茨投资组合优化 (Markowitz Portfolio Optimization) 旨在给定预期收益的条件下最小化投资组合的方差。当引入交易成本、整数约束(如不能买入分数股)或复杂的风险度量(如在险价值 VaR 或条件在险价值 CVaR)时,优化问题变得非凸,存在多个局部最小值。一个仅收敛到局部最小的资产配置方案可能意味着额外的非补偿性风险敞口。
  • 计量经济学:在最大似然估计 (MLE) 和广义矩估计 (GMM) 中,目标函数(负对数似然函数或 GMM 准则函数)对于非线性模型常常是非凸的。若数值优化从单一初始值出发并收敛到局部最小值而非全局最小值,得到的参数估计将不是一致的。实践中常用多起点策略或全局优化算法来降低这一风险。此外,在机器学习模型的训练中——如训练神经网络时的损失函数最小化——损失曲面通常充满大量局部最小值(和鞍点),全局最优的寻找是所有深度学习算法面临的核心挑战。

VI. 与相关概念的比较

| 概念 | 英文 | 范围 | 关系 | |------|------|------|------| | 局部最小值 | Local Minimum | 某个邻域 | 全局最小值一定是局部最小值;反之不成立 | | 全局最小值 | Global Minimum | 整个定义域 | 函数在其定义域上可能不存在全局最小值(若定义域无界或无紧性) | | 鞍点 | Saddle Point | — | 梯度为零但既非局部最小也非局部最大;在高维优化中比局部最小值更为普遍 | | 临界点 / 驻点 | Critical Point / Stationary Point | — | 梯度为零的点;涵盖了上述所有情况 |

对于实际的经济建模和统计推断而言,识别一个解究竟是局部还是全局最小值,对结论的有效性有决定性影响。在报告数值优化结果时,对初始值、收敛路径和稳健性检查的透明描述是可靠研究的基本要求。