ARTICLE
严格凸函数
严格凸函数 (Strictly Convex Function) 严格凸函数是凸函数的一个强化子类,要求函数在任意两点连线上的取值严格小于这两点函数值的凸组合(端点除外)。这一"严格小于"的条件排除了函数包含线性段的可能性,使得严格凸函数在最优化理论中具有特别优良的性质——其任意局部极小值必为唯一的全局极小值。 定义 设 X R^n 为凸集,函数 f: X
严格凸函数 (Strictly Convex Function)
严格凸函数是凸函数的一个强化子类,要求函数在任意两点连线上的取值严格小于这两点函数值的凸组合(端点除外)。这一"严格小于"的条件排除了函数包含线性段的可能性,使得严格凸函数在最优化理论中具有特别优良的性质——其任意局部极小值必为唯一的全局极小值。
定义
设 为凸集,函数 称为严格凸函数,若对任意满足 的两点 以及任意 ,有:
换言之,连接函数图像上任意两点的线段严格位于函数图像的上方(端点除外)。对比普通凸函数允许等号成立,严格凸性将等号限制在 或 的平凡情形。这一差异看似微小,却从根本上改变了函数在优化中的行为:严格凸函数在凸集上的极小值若存在则必然唯一。
与普通凸函数的对比
普通凸函数仅要求 ,等号允许在非端点处成立。例如线性函数 是凸的,但不严格凸——它在任意两点连线上的值恰好等于两端点函数值的线性插值,最小值不唯一(整条直线上的点都是全局极小)。又如常数函数 ,处处满足凸性定义中的等号,但完全没有唯一极小值的概念。
严格凸函数排除了一切"平坦":函数图像上不存在任何直线段,上境图(Epigraph)的边界不含直线段。这意味着严格凸函数的凸性虽不如强凸函数(Strongly Convex)那样以二次下界量化凸性"强度",但足以保证极小值的唯一性——这在理论和算法中常常是足够且更易验证的条件。
一阶条件
当 可微时,严格凸性的一阶刻画为:对任意 ,
即函数图像严格位于其任意切平面(一阶泰勒展开)之上。比较之下,普通可微凸函数此处允许等号。一阶条件的几何含义是:梯度方向提供了函数值的严格低估,任何偏离当前点的移动都会使函数值增加超过梯度所预测的幅度。这一性质直接蕴含:若 ,则 是唯一的全局极小点,无需检查二阶条件或边界。
二阶条件
对于二次可微函数 ,黑塞矩阵(Hessian)的正定性提供了一种实用的判定方法。两个方向的结论需仔细区分:
- 充分条件: 若黑塞矩阵在定义域内处处正定(即 对所有 ),则 为严格凸函数。这是实践中最常用的验证手段。
- 必要条件: 严格凸性仅蕴含黑塞矩阵半正定(即 ),而不保证处处正定。
必要条件与充分条件之间的鸿沟由经典反例 揭示:(在原点黑塞矩阵奇异),但 在 上严格凸。类似地, 的黑塞矩阵恒为 ,满足充分条件。因此,黑塞矩阵正定是判定严格凸性的便捷充分条件,但绝非必要条件——缺乏正定性时仍需回归定义验证。
严格詹森不等式
詹森不等式(Jensen's Inequality)是凸函数的核心性质,严格凸性赋予其强化版本。若 严格凸, 为随机向量且非几乎处处为常数,则:
即"函数值的期望严格大于函数在期望处的值"。这一严格不等式在信息论中扮演基础角色:由 的严格凸性可导出吉布斯不等式和KL散度的非负性,且等号成立当且仅当两分布几乎处处相等;在风险度量中,严格凸的损失函数保证分散化严格降低风险。当等号成立时,可推断 几乎处处为常数——这一逻辑常用于证明随机变量分布的唯一性,例如最大熵分布推导中,目标函数的严格凸性保证解的唯一。
常见实例
典型的严格凸函数涵盖一元与多元情形:
- (在 上严格凸;黑塞矩阵恒为 2,处处正定)
- (指数函数,二阶导数恒正,增长率递增)
- (在 上严格凸;常用于指数族分布和熵的计算)
- (在 上严格凸;用于信息熵和相对熵)
- ( 范数平方,黑塞矩阵为 ,处处正定)
- (对数障碍函数,定义在正象限上严格凸,是内点法的核心构件)
- (二次型,当 时严格凸)
反例警示: 是凸的但非严格凸(原点处有尖角且左右线性段等号成立);(ReLU 激活函数)也是凸但非严格凸,在负半轴恒为零。实践中,岭回归的目标函数 由于 惩罚项的严格凸性而获得唯一解,而LASSO的 惩罚仅保证凸性,解可能不唯一。
在优化中的核心作用
严格凸性在凸优化中保证极小值的唯一性:若 在凸集 上严格凸,则它在 上至多有一个局部极小值,且该极小值(若存在)必为唯一的全局极小值。这一性质是众多算法收敛性分析的基础——梯度下降法、牛顿法等迭代算法在严格凸目标上的收敛点不依赖于初始值的选择。
进一步,若 紧且 在 上连续严格凸,则极小值不仅唯一,而且存在(由魏尔斯特拉斯定理保证)。在机器学习中,逻辑回归的负对数似然函数是严格凸的(在非共线数据下),因此可通过最大似然估计唯一确定参数;支持向量机的铰链损失配合 正则化也构成严格凸目标,保证解的唯一性。
值得指出的是,严格凸性虽保证唯一解,却不如强凸性那样提供收敛速率的线性(或指数级)保证。强凸函数满足 (),这一额外的二次下界使梯度下降达到线性收敛速率。严格凸函数则只能保证渐近收敛,速率可能为次线性。这揭示了凸性层次结构:强凸 严格凸 凸。
与经济学的联系
严格凸性在经济学中同样居于核心地位。效用函数的严格拟凹性(由严格凸的无差异曲线上水平集刻画)保证需求函数的单值性和连续性——消费者在给定预算约束下的最优消费束是唯一的,避免了多重最优解带来的比较静态分析困难。成本函数关于产出水平的严格凸性意味着边际成本递增,排除了规模报酬不变带来的企业规模不确定性,使利润最大化问题获得唯一解。在一般均衡理论中,超额需求函数的总替代性结合严格凸性可唯一确定均衡价格向量,为比较静态分析和稳定性讨论奠定基础。
总结
严格凸函数是凸函数家族中最重要的子类:它用"严格小于"排除线性段,获得极小值唯一性的关键结论。一阶条件确保梯度给出严格函数下界,二阶正定黑塞矩阵是便捷的充分条件但非必要,严格詹森不等式则在信息论和统计中无处不在。在实际应用中,从机器学习的经验风险最小化到经济学的效用最大化,严格凸性通常是我们希望在目标函数中验证的第一个强性质——它既不像普通凸性那样可能留下多重解的不确定性,也不像强凸性那样要求严苛的二次增长率条件。