ARTICLE

Convex Function

凸函数 (Convex Function) 凸函数(Convex Function)是数学分析与优化理论中最核心的概念之一,其定义源于函数图像"下凸"的几何直觉:连接图像上任意两点的线段始终位于图像上方。这一看似简单的性质在经济学、运筹学与统计学中引发了深刻的结构性后果。 形式上,令 f: C R,其中 C R^n 为凸集。称 f 为凸函数,若对任意 x,

浏览 0 更新 2025-10-31

凸函数 (Convex Function)

凸函数(Convex Function)是数学分析与优化理论中最核心的概念之一,其定义源于函数图像"下凸"的几何直觉:连接图像上任意两点的线段始终位于图像上方。这一看似简单的性质在经济学、运筹学与统计学中引发了深刻的结构性后果。

形式上,令 f:CRf: C \to \mathbb{R},其中 CRnC \subseteq \mathbb{R}^n 为凸集。称 ff 为凸函数,若对任意 x,yCx, y \in Cλ[0,1]\lambda \in [0, 1],成立:

f(λx+(1λ)y)λf(x)+(1λ)f(y)f(\lambda x + (1-\lambda) y) \leq \lambda f(x) + (1-\lambda) f(y)

当不等式严格(xy,λ(0,1)x \neq y, \lambda \in (0, 1))时称为严格凸。该不等式直接推广为离散形式的琴生不等式(Jensen's Inequality):f(i=1nλixi)i=1nλif(xi)f(\sum_{i=1}^n \lambda_i x_i) \leq \sum_{i=1}^n \lambda_i f(x_i),其中 λi=1,λi0\sum \lambda_i = 1, \lambda_i \geq 0。在概率论框架下,琴生不等式表述为 f(E[X])E[f(X)]f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)],构成了风险厌恶理论与信息论的数学基础——例如,由 lnx-\ln x 的凸性可导出算术-几何平均不等式以及Gibbs不等式

等价刻画

对于可微函数,凸性有三种互补的等价刻画,各自从不同角度揭示凸性的结构力量:

一阶条件(梯度不等式):对一元函数,f(y)f(x)+f(x)(yx),x,yf(y) \geq f(x) + f'(x)(y-x), \forall x, y。多元情形下,梯度 f(x)\nabla f(x) 满足 f(y)f(x)+f(x)T(yx)f(y) \geq f(x) + \nabla f(x)^T (y-x)。此条件表明函数图像始终位于其任意切平面之上——切线是函数的全局下估计(global underestimator)。直接推论:任何临界点 f(x)=0\nabla f(x^*) = 0 必为全局极小点,这使得凸优化无需担心局部极小与鞍点。

二阶条件:若 ff 二阶可微,则 ff 凸当且仅当其Hessian矩阵 2f(x)\nabla^2 f(x) 处处半正定(2f(x)0\nabla^2 f(x) \succeq 0)。若 Hessian 处处正定则 ff 严格凸。对一元函数退化为 f(x)0f''(x) \geq 0,直观理解即"斜率单调不减"。

上图刻画ff 凸当且仅当其上图(epigraph)epi(f)={(x,t)f(x)t}\operatorname{epi}(f) = \{(x, t) \mid f(x) \leq t\} 为凸集。该几何视角将函数凸性与集合凸性统一,是凸分析(Convex Analysis)的基石。基于上图可定义闭凸函数(epigraph 为闭集)和正常凸函数,且任意正常闭凸函数恰为其所有支撑仿射函数的上确界——这为Fenchel共轭与对偶理论提供了几何基础。

运算保持性与次微分

凸函数在一系列核心运算下保持封闭:(1)非负加权和 iwifi\sum_i w_i f_iwi0w_i \geq 0);(2)逐点上确界 supαAfα\sup_{\alpha \in A} f_\alpha;(3)与仿射映射的复合 f(Ax+b)f(Ax + b);(4)透视函数 tf(x/t),t>0t f(x/t), t > 0;(5)部分下确界 g(y)=infxf(x,y)g(y) = \inf_x f(x, y)(在 ff 联合凸的条件下)。这些保持性使凸性在复杂模型中具有极强的可组合性。

次微分(subdifferential)将光滑函数的梯度概念推广到非光滑凸函数:f(x)={gf(y)f(x)+gT(yx),y}\partial f(x) = \{g \mid f(y) \geq f(x) + g^T(y-x), \forall y\}。凸函数在定义域内点处次微分非空、紧、凸。当 ffxx 处可微时,f(x)={f(x)}\partial f(x) = \{\nabla f(x)\}。次微分是KKT条件单调算子理论与近端算法的核心工具。

常见凸函数

经典凸函数在各学科中反复出现:R\mathbb{R} 上的指数函数 exe^x、幂函数 xax^aa1a \geq 1a0a \leq 0)、负熵 xlnxx \ln xx>0x>0);Rn\mathbb{R}^n 上的任意范数 xp\|x\|_pp1p \geq 1);二次型 xTPxx^T P xP0P \succeq 0);log-sum-exp 函数 ln(iexi)\ln(\sum_i e^{x_i})(Softmax 的 log-partition);负熵 ixilnxi\sum_i x_i \ln x_i(信息论中 KL 散度的核心);矩阵空间中的谱范数 X2\|X\|_2、核范数 X\|X\|_* 与 log-determinant 函数 logdetX-\log \det X(在正定锥上凸)。

经济学应用

凸函数在经济学中以多重面貌出现,其重要性不亚于凹函数(两者通过取负相互转化:ff    f\iff -f 凹)。

风险与不确定性:在期望效用理论中,冯·诺依曼-摩根斯特恩效用函数 uu 的凹性等价于风险厌恶,等价地 u-u 为凸。Arrow-Pratt绝对风险厌恶系数 A(x)=u(x)/u(x)A(x) = -u''(x)/u'(x) 度量了 uu 的标准化二阶凸性。前景理论(Kahneman \& Tversky, 1979)中,价值函数在损失域为凸、收益域为凹,解释了个人在亏损时的风险寻求行为与盈利时的风险规避。随机占优理论中,二阶随机占优等价于所有凹效用函数的一致偏好排序。

生产与成本:成本函数在产出 qq 上为凸,反映边际成本递增规律。成本函数 C(w,q)C(w, q) 在要素价格 ww 上为凹(成本最小化对偶),但对偶地,利润函数在产出价格上为凸——由Hotelling引理可直接推导。谢泼德引理xi=C/wix_i^* = \partial C / \partial w_i)与 Hessian 的半负定性均根植于凸分析。

资产定价与固定收益布莱克-斯科尔斯公式中,期权价格在波动率上为凸,这解释了"波动率微笑"与波动率交易策略的利润来源。固定收益中,凸性指标定义为 Convexity=1Pd2Pdy2\text{Convexity} = \frac{1}{P} \frac{d^2 P}{dy^2},度量债券价格-收益率曲线的弯曲程度。正凸性使收益率下行时的价格涨幅大于上行时的跌幅,是久期免疫策略必需的二阶风控指标。而MBS与可赎回债券中,嵌入的提前偿付期权产生负凸性,导致"凸性对冲"成为固定收益交易中最具挑战性的风险管理工作之一。

激励与契约设计委托代理模型中,代理人的参与约束与激励相容约束常构成凸可行性区域;信息租金函数依据包络定理在代理人类型上为凸。机制设计中,可实施分配规则等价于单调性条件,而单调性又等价于某一凸函数的次梯度映射,这揭示了激励相容与凸分析的深层联系。在最优税收(Mirrlees 模型)中,税收函数的实施条件同样取决于相关函数的凸性。

相关概念与推广

拟凸与对数凸:拟凸函数(quasiconvex)仅要求下水平集为凸集,弱于凸性,在无差异曲线分析与单调似然比中自然出现。对数凸函数(lnf\ln f 凸)在可靠性理论信息经济学的信号甄别中起关键作用。强凸函数引入二次下界 f(y)f(x)+f(x)T(yx)+μ2yx2f(y) \geq f(x) + \nabla f(x)^T(y-x) + \frac{\mu}{2}\|y-x\|^2μ>0\mu>0),保证了梯度下降的线性收敛速率。联合凸与对偶Fenchel共轭 f(y)=supx{yTxf(x)}f^*(y) = \sup_x \{y^T x - f(x)\} 将凸函数对偶映射到另一凸函数,是Lagrange对偶的几何实质。Bregman散度 Df(x,y)=f(x)f(y)f(y)T(xy)D_f(x, y) = f(x) - f(y) - \nabla f(y)^T(x-y) 利用凸性构造非对称距离,广泛应用于信息几何镜像下降变分推断