ARTICLE

全局极小值

全局极小值 (Global Minimum) 全局极小值是最优化理论中最核心的概念之一,指目标函数在其整个定义域上所能达到的最小函数值。若函数 f: D R 在点 x^* D 处取得全局极小值,则对所有 x D 均有 f( x^*) f( x)。换言之,全局极小值是在函数的"整个版图"上寻找最低点,与之相对的是仅在某个邻域内取最小的局部极小值。这一区分的实际

浏览 4 更新 2025-10-26

全局极小值 (Global Minimum)

全局极小值最优化理论中最核心的概念之一,指目标函数在其整个定义域上所能达到的最小函数值。若函数 f:DRf: \mathcal{D} \to \mathbb{R} 在点 xD\mathbf{x}^* \in \mathcal{D} 处取得全局极小值,则对所有 xD\mathbf{x} \in \mathcal{D} 均有 f(x)f(x)f(\mathbf{x}^*) \leq f(\mathbf{x})。换言之,全局极小值是在函数的"整个版图"上寻找最低点,与之相对的是仅在某个邻域内取最小的局部极小值。这一区分的实际后果非同小可:许多传统优化算法仅能保证收敛到局部最优,而经济学家和决策者真正关心的——最低成本、最大社会福利、最优资源配置——本质上都是全局极值问题。

严格的数学定义

考虑定义在可行域 DRn\mathcal{D} \subseteq \mathbb{R}^n 上的实值函数 f:DRf: \mathcal{D} \to \mathbb{R}

若存在点 xD\mathbf{x}^* \in \mathcal{D},使得对任意 xD\mathbf{x} \in \mathcal{D} 满足 f(x)f(x)f(\mathbf{x}^*) \leq f(\mathbf{x}),则称 x\mathbf{x}^*ffD\mathcal{D} 上的全局极小点(global minimizer),相应的函数值 f(x)f(\mathbf{x}^*)全局极小值(global minimum value)。若不等号对所有 xx\mathbf{x} \neq \mathbf{x}^* 严格成立——即 f(x)<f(x)f(\mathbf{x}^*) < f(\mathbf{x})——则称 x\mathbf{x}^*严格全局极小点

全局极小值的存在性需要两个关键条件:函数 ffD\mathcal{D} 上连续(或至少下半连续),且 D\mathcal{D} 为紧集(在 Rn\mathbb{R}^n 中即有界闭集)。这是魏尔斯特拉斯极值定理的直接推论。在实际经济问题中,紧性条件常通过约束——如预算约束、技术可行性边界——自然满足。

局部极小值的定义为:存在 δ>0\delta > 0,使对所有满足 xx<δ\|\mathbf{x} - \mathbf{x}^*\| < \deltaxD\mathbf{x} \in \mathcal{D} 的点,有 f(x)f(x)f(\mathbf{x}^*) \leq f(\mathbf{x})。显然,每个全局极小点必为局部极小点,但反之不然——全局极小值是所有局部极小值中函数值最小的那个。这一关系在优化算法设计中至关重要:算法可能在某个局部极小点"卡住",从中无法判断是否已达全局最优。

凸性:连接局部与全局的桥梁

凸优化之所以在经济学和机器学习中占据中心地位,根本原因在于:对于凸函数,任何局部极小点自动成为全局极小点。

ff 为定义在凸集 D\mathcal{D} 上的凸函数——即对任意 x,yD\mathbf{x}, \mathbf{y} \in \mathcal{D}λ[0,1]\lambda \in [0, 1] 满足 f(λx+(1λ)y)λf(x)+(1λ)f(y)f(\lambda \mathbf{x} + (1 - \lambda)\mathbf{y}) \leq \lambda f(\mathbf{x}) + (1 - \lambda)f(\mathbf{y})——则 ff 的所有驻点(满足费马引理条件 f(x)=0\nabla f(\mathbf{x}) = \mathbf{0} 的点)都是全局极小点。严格凸函数则保证全局极小点唯一。

这一性质的实践意义极为深远:在普通最小二乘法中,残差平方和函数 SSR(β)=yXβ2\text{SSR}(\boldsymbol{\beta}) = \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2β\boldsymbol{\beta} 的严格凸函数,因此正规方程的解自动给出全局最优的参数估计。在最大似然估计中,若对数似然函数为凹(即负对数似然为凸),则可确信找到的解是全局极大似然估计。凸性诊断因此在计量经济模型的数值求解中被视为决定性的第一步。

对于非凸函数,一阶必要条件(如 f(x)=0\nabla f(\mathbf{x}) = \mathbf{0})和二阶充分条件(海森矩阵正定)仅能确认局部极值,全局最优的判定需要额外的全局信息——如函数的结构性质、或者对所有局部极小值进行穷举比较。

经济学中的全局极值问题

全局极小值概念渗透于经济学的各个分支,其核心应用围绕"最小化成本"与"最大化福利"的两大主题展开。

成本最小化:企业在给定产出水平 qq 和生产函数 f(x)f(\mathbf{x}) 下最小化成本 wx\mathbf{w} \cdot \mathbf{x},受约束 f(x)qf(\mathbf{x}) \geq q。该问题的解——条件要素需求函数——必须在所有可行投入组合中全局最小化成本,而非仅在局部比较。成本函数的凸性(由生产技术的拟凹性保证)确保了一阶条件 wiwj=f/xif/xj\frac{w_i}{w_j} = \frac{\partial f / \partial x_i}{\partial f / \partial x_j} 引出的解为全局最优。

福利经济学社会福利函数的最大化在分配政策设计中是典型的全局优化问题。当效用可能集为凸时,任何满足帕累托最优条件的局部极大自动成为全局社会福利极大。

计量经济学中的极值估计广义矩估计和最大似然估计均以目标函数的全局极值定义估计量。在非凸目标函数的情形——如含有断点的门限回归结构断点模型——局部搜索算法(如Newton-Raphson)可能收敛到非全局极值,此时候选格点搜索(grid search)和全局优化算法(如模拟退火遗传算法)成为必要工具。

博弈论纳什均衡的精炼概念常涉及全局极值。进化稳定策略要求突变策略的收益在全策略空间中不大于均衡策略的收益,是一种全局性的稳健性要求。

全局优化算法概览

当目标函数非凸时,寻找全局极小值是一个公认的困难问题(NP-hard,在最坏情形下)。实践中发展出两大类策略。

确定性方法:分支定界法将可行域递归划分为子区域,利用函数的下界估计排除不可能包含全局极值的子域;Lipschitz优化利用函数的Lipschitz常数构造下界支撑面以指导搜索。这类方法在低维问题中表现可靠,但维度升高时计算复杂度呈指数增长。

随机方法:模拟退火以一定的概率接受使目标函数增大的移动,从而跳出局部极小陷阱;遗传算法维护候选解的种群,通过交叉与变异探索全局解空间;粒子群优化模拟鸟群觅食行为在解空间中共享信息。这些启发式方法不保证找到精确的全局极值,但在高维复杂问题中往往给出可接受的近似解。

在经济学实证研究中,面对非凸估计问题,研究者的标准做法是:从多个分散的初始值启动局部优化器,比较所得的各局部极值以增大找到全局极值的概率。若多次重启均收敛至同一结果,该解的可信度则大幅提升。此外,现代计算经济学中也发展出贝叶斯优化和响应面方法,通过构建目标函数的代理模型(如高斯过程)来指导全局搜索,在中低维参数空间校准问题中表现优异。

全局极小值既是对"最优"概念最彻底的数学表达,也是将经济理论的规范命题——何为最佳、何为最低、何为最优效率——转化为可操作计算方案的桥梁。从微观层面的消费者效用最大化到宏观层面的最优政策设计,判断所得解究竟是局部改进还是全局最优,构成了区分"表面合理"与"真正最优"的分水岭。