ARTICLE

严格凸函数

严格凸函数 (Strictly Convex Function) 严格凸函数是凸函数的一个强化子类,要求函数在任意两点连线上的取值严格小于这两点函数值的凸组合(端点除外)。这一"严格小于"的条件排除了函数包含线性段的可能性,使得严格凸函数在最优化理论中具有特别优良的性质——其任意局部极小值必为唯一的全局极小值。 定义 设 X R^n 为凸集,函数 f: X

浏览 0 更新 2026-05-25

严格凸函数 (Strictly Convex Function)

严格凸函数凸函数的一个强化子类,要求函数在任意两点连线上的取值严格小于这两点函数值的凸组合(端点除外)。这一"严格小于"的条件排除了函数包含线性段的可能性,使得严格凸函数在最优化理论中具有特别优良的性质——其任意局部极小值必为唯一的全局极小值。

定义

XRnX \subseteq \mathbb{R}^n凸集,函数 f:XRf: X \to \mathbb{R} 称为严格凸函数,若对任意满足 xy\mathbf{x} \neq \mathbf{y} 的两点 x,yX\mathbf{x}, \mathbf{y} \in X 以及任意 θ(0,1)\theta \in (0, 1),有:

f(θx+(1θ)y)  <  θf(x)+(1θ)f(y)f(\theta \mathbf{x} + (1 - \theta) \mathbf{y}) \;<\; \theta f(\mathbf{x}) + (1 - \theta) f(\mathbf{y})

换言之,连接函数图像上任意两点的线段严格位于函数图像的上方(端点除外)。对比普通凸函数允许等号成立,严格凸性将等号限制在 θ=0\theta = 0θ=1\theta = 1 的平凡情形。这一差异看似微小,却从根本上改变了函数在优化中的行为:严格凸函数在凸集上的极小值若存在则必然唯一。

与普通凸函数的对比

普通凸函数仅要求 f(θx+(1θ)y)θf(x)+(1θ)f(y)f(\theta \mathbf{x} + (1 - \theta)\mathbf{y}) \leq \theta f(\mathbf{x}) + (1 - \theta) f(\mathbf{y}),等号允许在非端点处成立。例如线性函数 f(x)=ax+bf(x) = ax + b 是凸的,但不严格凸——它在任意两点连线上的值恰好等于两端点函数值的线性插值,最小值不唯一(整条直线上的点都是全局极小)。又如常数函数 f(x)=cf(x) = c,处处满足凸性定义中的等号,但完全没有唯一极小值的概念。

严格凸函数排除了一切"平坦":函数图像上不存在任何直线段,上境图(Epigraph)的边界不含直线段。这意味着严格凸函数的凸性虽不如强凸函数(Strongly Convex)那样以二次下界量化凸性"强度",但足以保证极小值的唯一性——这在理论和算法中常常是足够且更易验证的条件。

一阶条件

ff 可微时,严格凸性的一阶刻画为:对任意 xy\mathbf{x} \neq \mathbf{y}

f(y)  >  f(x)+f(x)T(yx)f(\mathbf{y}) \;>\; f(\mathbf{x}) + \nabla f(\mathbf{x})^T (\mathbf{y} - \mathbf{x})

即函数图像严格位于其任意切平面(一阶泰勒展开)之上。比较之下,普通可微凸函数此处允许等号。一阶条件的几何含义是:梯度方向提供了函数值的严格低估,任何偏离当前点的移动都会使函数值增加超过梯度所预测的幅度。这一性质直接蕴含:若 f(x)=0\nabla f(\mathbf{x}^*) = \mathbf{0},则 x\mathbf{x}^* 是唯一的全局极小点,无需检查二阶条件或边界。

二阶条件

对于二次可微函数 f:RnRf: \mathbb{R}^n \to \mathbb{R}黑塞矩阵(Hessian)的正定性提供了一种实用的判定方法。两个方向的结论需仔细区分:

  1. 充分条件: 若黑塞矩阵在定义域内处处正定(即 2f(x)0\nabla^2 f(\mathbf{x}) \succ \mathbf{0} 对所有 x\mathbf{x}),则 ff 为严格凸函数。这是实践中最常用的验证手段。
  2. 必要条件: 严格凸性仅蕴含黑塞矩阵半正定(即 2f(x)0\nabla^2 f(\mathbf{x}) \succeq \mathbf{0}),而不保证处处正定。

必要条件与充分条件之间的鸿沟由经典反例 f(x)=x4f(x) = x^4 揭示:2f(0)=0\nabla^2 f(0) = 0(在原点黑塞矩阵奇异),但 ffR\mathbb{R} 上严格凸。类似地,f(x)=exf(x) = e^x 的黑塞矩阵恒为 ex>0e^x > 0,满足充分条件。因此,黑塞矩阵正定是判定严格凸性的便捷充分条件,但绝非必要条件——缺乏正定性时仍需回归定义验证。

严格詹森不等式

詹森不等式(Jensen's Inequality)是凸函数的核心性质,严格凸性赋予其强化版本。若 ff 严格凸,X\mathbf{X} 为随机向量且非几乎处处为常数,则:

f(E[X])  <  E[f(X)]f(\mathbb{E}[\mathbf{X}]) \;<\; \mathbb{E}[f(\mathbf{X})]

即"函数值的期望严格大于函数在期望处的值"。这一严格不等式在信息论中扮演基础角色:由 logx-\log x 的严格凸性可导出吉布斯不等式KL散度的非负性,且等号成立当且仅当两分布几乎处处相等;在风险度量中,严格凸的损失函数保证分散化严格降低风险。当等号成立时,可推断 X\mathbf{X} 几乎处处为常数——这一逻辑常用于证明随机变量分布的唯一性,例如最大熵分布推导中,目标函数的严格凸性保证解的唯一。

常见实例

典型的严格凸函数涵盖一元与多元情形:

  • f(x)=x2f(x) = x^2(在 R\mathbb{R} 上严格凸;黑塞矩阵恒为 2,处处正定)
  • f(x)=exf(x) = e^x(指数函数,二阶导数恒正,增长率递增)
  • f(x)=lnxf(x) = -\ln x(在 R++\mathbb{R}_{++} 上严格凸;常用于指数族分布和熵的计算)
  • f(x)=xlnxf(x) = x \ln x(在 R++\mathbb{R}_{++} 上严格凸;用于信息熵相对熵
  • f(x)=x2=xi2f(\mathbf{x}) = \|\mathbf{x}\|^2 = \sum x_i^22\ell_2 范数平方,黑塞矩阵为 2I2\mathbf{I},处处正定)
  • f(x)=lnxif(\mathbf{x}) = -\sum \ln x_i(对数障碍函数,定义在正象限上严格凸,是内点法的核心构件)
  • f(x)=xTPx+qTxf(\mathbf{x}) = \mathbf{x}^T P \mathbf{x} + \mathbf{q}^T \mathbf{x}二次型,当 P0P \succ 0 时严格凸)

反例警示:f(x)=xf(x) = |x| 是凸的但非严格凸(原点处有尖角且左右线性段等号成立);f(x)=max{0,x}f(x) = \max\{0, x\}(ReLU 激活函数)也是凸但非严格凸,在负半轴恒为零。实践中,岭回归的目标函数 yXβ2+λβ2\|\mathbf{y} - X\boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|^2 由于 2\ell_2 惩罚项的严格凸性而获得唯一解,而LASSO1\ell_1 惩罚仅保证凸性,解可能不唯一。

在优化中的核心作用

严格凸性在凸优化中保证极小值的唯一性:若 ff 在凸集 XX 上严格凸,则它在 XX 上至多有一个局部极小值,且该极小值(若存在)必为唯一的全局极小值。这一性质是众多算法收敛性分析的基础——梯度下降法牛顿法等迭代算法在严格凸目标上的收敛点不依赖于初始值的选择。

进一步,若 XX 紧且 ffXX 上连续严格凸,则极小值不仅唯一,而且存在(由魏尔斯特拉斯定理保证)。在机器学习中,逻辑回归的负对数似然函数是严格凸的(在非共线数据下),因此可通过最大似然估计唯一确定参数;支持向量机的铰链损失配合 2\ell_2 正则化也构成严格凸目标,保证解的唯一性。

值得指出的是,严格凸性虽保证唯一解,却不如强凸性那样提供收敛速率的线性(或指数级)保证。强凸函数满足 f(y)f(x)+f(x)T(yx)+μ2yx2f(\mathbf{y}) \geq f(\mathbf{x}) + \nabla f(\mathbf{x})^T (\mathbf{y} - \mathbf{x}) + \frac{\mu}{2}\|\mathbf{y} - \mathbf{x}\|^2μ>0\mu > 0),这一额外的二次下界使梯度下降达到线性收敛速率。严格凸函数则只能保证渐近收敛,速率可能为次线性。这揭示了凸性层次结构:强凸 \subset 严格凸 \subset 凸。

与经济学的联系

严格凸性在经济学中同样居于核心地位。效用函数的严格拟凹性(由严格凸的无差异曲线上水平集刻画)保证需求函数的单值性和连续性——消费者在给定预算约束下的最优消费束是唯一的,避免了多重最优解带来的比较静态分析困难。成本函数关于产出水平的严格凸性意味着边际成本递增,排除了规模报酬不变带来的企业规模不确定性,使利润最大化问题获得唯一解。在一般均衡理论中,超额需求函数的总替代性结合严格凸性可唯一确定均衡价格向量,为比较静态分析和稳定性讨论奠定基础。

总结

严格凸函数是凸函数家族中最重要的子类:它用"严格小于"排除线性段,获得极小值唯一性的关键结论。一阶条件确保梯度给出严格函数下界,二阶正定黑塞矩阵是便捷的充分条件但非必要,严格詹森不等式则在信息论和统计中无处不在。在实际应用中,从机器学习的经验风险最小化到经济学的效用最大化,严格凸性通常是我们希望在目标函数中验证的第一个强性质——它既不像普通凸性那样可能留下多重解的不确定性,也不像强凸性那样要求严苛的二次增长率条件。