凸函数 (Convex Function)
凸函数 (Convex Function)是数学分析与优化理论中最核心的概念之一,其定义源于函数图像"下凸"的几何直觉:连接图像上任意两点的线段始终位于图像上方。这一看似简单的性质在经济学、运筹学与统计学中引发了深刻的结构性后果。
形式上,令 f : C → R f: C \to \mathbb{R} f : C → R ,其中 C ⊆ R n C \subseteq \mathbb{R}^n C ⊆ R n 为凸集。称 f f f 为凸函数,若对任意 x , y ∈ C x, y \in C x , y ∈ C 及 λ ∈ [ 0 , 1 ] \lambda \in [0, 1] λ ∈ [ 0 , 1 ] ,成立:
f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) f(\lambda x + (1-\lambda) y) \leq \lambda f(x) + (1-\lambda) f(y) f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y )
当不等式严格(x ≠ y , λ ∈ ( 0 , 1 ) x \neq y, \lambda \in (0, 1) x = y , λ ∈ ( 0 , 1 ) )时称为严格凸。该不等式直接推广为离散形式的琴生不等式 (Jensen's Inequality):f ( ∑ i = 1 n λ i x i ) ≤ ∑ i = 1 n λ i f ( x i ) f(\sum_{i=1}^n \lambda_i x_i) \leq \sum_{i=1}^n \lambda_i f(x_i) f ( ∑ i = 1 n λ i x i ) ≤ ∑ i = 1 n λ i f ( x i ) ,其中 ∑ λ i = 1 , λ i ≥ 0 \sum \lambda_i = 1, \lambda_i \geq 0 ∑ λ i = 1 , λ i ≥ 0 。在概率论框架下,琴生不等式表述为 f ( E [ X ] ) ≤ E [ f ( X ) ] f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)] f ( E [ X ]) ≤ E [ f ( X )] ,构成了风险厌恶理论 与信息论的数学基础——例如,由 − ln x -\ln x − ln x 的凸性可导出算术-几何平均不等式以及Gibbs不等式 。
等价刻画
对于可微函数,凸性有三种互补的等价刻画,各自从不同角度揭示凸性的结构力量:
一阶条件(梯度不等式) :对一元函数,f ( y ) ≥ f ( x ) + f ′ ( x ) ( y − x ) , ∀ x , y f(y) \geq f(x) + f'(x)(y-x), \forall x, y f ( y ) ≥ f ( x ) + f ′ ( x ) ( y − x ) , ∀ x , y 。多元情形下,梯度 ∇ f ( x ) \nabla f(x) ∇ f ( x ) 满足 f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) f(y) \geq f(x) + \nabla f(x)^T (y-x) f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) 。此条件表明函数图像始终位于其任意切平面之上——切线是函数的全局下估计(global underestimator)。直接推论:任何临界点 ∇ f ( x ∗ ) = 0 \nabla f(x^*) = 0 ∇ f ( x ∗ ) = 0 必为全局极小点,这使得凸优化无需担心局部极小与鞍点。
二阶条件 :若 f f f 二阶可微,则 f f f 凸当且仅当其Hessian矩阵 ∇ 2 f ( x ) \nabla^2 f(x) ∇ 2 f ( x ) 处处半正定(∇ 2 f ( x ) ⪰ 0 \nabla^2 f(x) \succeq 0 ∇ 2 f ( x ) ⪰ 0 )。若 Hessian 处处正定则 f f f 严格凸。对一元函数退化为 f ′ ′ ( x ) ≥ 0 f''(x) \geq 0 f ′′ ( x ) ≥ 0 ,直观理解即"斜率单调不减"。
上图刻画 :f f f 凸当且仅当其上图 (epigraph)epi ( f ) = { ( x , t ) ∣ f ( x ) ≤ t } \operatorname{epi}(f) = \{(x, t) \mid f(x) \leq t\} epi ( f ) = {( x , t ) ∣ f ( x ) ≤ t } 为凸集。该几何视角将函数凸性与集合凸性统一,是凸分析 (Convex Analysis)的基石。基于上图可定义闭凸函数(epigraph 为闭集)和正常凸函数,且任意正常闭凸函数恰为其所有支撑仿射函数的上确界——这为Fenchel共轭 与对偶理论提供了几何基础。
运算保持性与次微分
凸函数在一系列核心运算下保持封闭:(1)非负加权和 ∑ i w i f i \sum_i w_i f_i ∑ i w i f i (w i ≥ 0 w_i \geq 0 w i ≥ 0 );(2)逐点上确界 sup α ∈ A f α \sup_{\alpha \in A} f_\alpha sup α ∈ A f α ;(3)与仿射映射的复合 f ( A x + b ) f(Ax + b) f ( A x + b ) ;(4)透视函数 t f ( x / t ) , t > 0 t f(x/t), t > 0 t f ( x / t ) , t > 0 ;(5)部分下确界 g ( y ) = inf x f ( x , y ) g(y) = \inf_x f(x, y) g ( y ) = inf x f ( x , y ) (在 f f f 联合凸的条件下)。这些保持性使凸性在复杂模型中具有极强的可组合性。
次微分 (subdifferential)将光滑函数的梯度概念推广到非光滑凸函数:∂ f ( x ) = { g ∣ f ( y ) ≥ f ( x ) + g T ( y − x ) , ∀ y } \partial f(x) = \{g \mid f(y) \geq f(x) + g^T(y-x), \forall y\} ∂ f ( x ) = { g ∣ f ( y ) ≥ f ( x ) + g T ( y − x ) , ∀ y } 。凸函数在定义域内点处次微分非空、紧、凸。当 f f f 在 x x x 处可微时,∂ f ( x ) = { ∇ f ( x ) } \partial f(x) = \{\nabla f(x)\} ∂ f ( x ) = { ∇ f ( x )} 。次微分是KKT条件 、单调算子 理论与近端算法 的核心工具。
常见凸函数
经典凸函数在各学科中反复出现:R \mathbb{R} R 上的指数函数 e x e^x e x 、幂函数 x a x^a x a (a ≥ 1 a \geq 1 a ≥ 1 或 a ≤ 0 a \leq 0 a ≤ 0 )、负熵 x ln x x \ln x x ln x (x > 0 x>0 x > 0 );R n \mathbb{R}^n R n 上的任意范数 ∥ x ∥ p \|x\|_p ∥ x ∥ p (p ≥ 1 p \geq 1 p ≥ 1 );二次型 x T P x x^T P x x T P x (P ⪰ 0 P \succeq 0 P ⪰ 0 );log-sum-exp 函数 ln ( ∑ i e x i ) \ln(\sum_i e^{x_i}) ln ( ∑ i e x i ) (Softmax 的 log-partition);负熵 ∑ i x i ln x i \sum_i x_i \ln x_i ∑ i x i ln x i (信息论中 KL 散度的核心);矩阵空间中的谱范数 ∥ X ∥ 2 \|X\|_2 ∥ X ∥ 2 、核范数 ∥ X ∥ ∗ \|X\|_* ∥ X ∥ ∗ 与 log-determinant 函数 − log det X -\log \det X − log det X (在正定锥上凸)。
经济学应用
凸函数在经济学中以多重面貌出现,其重要性不亚于凹函数 (两者通过取负相互转化:f f f 凸 ⟺ − f \iff -f ⟺ − f 凹)。
风险与不确定性 :在期望效用理论 中,冯·诺依曼-摩根斯特恩 效用函数 u u u 的凹性等价于风险厌恶,等价地 − u -u − u 为凸。Arrow-Pratt 绝对风险厌恶系数 A ( x ) = − u ′ ′ ( x ) / u ′ ( x ) A(x) = -u''(x)/u'(x) A ( x ) = − u ′′ ( x ) / u ′ ( x ) 度量了 u u u 的标准化二阶凸性。前景理论 (Kahneman \& Tversky, 1979)中,价值函数在损失域为凸、收益域为凹,解释了个人在亏损时的风险寻求行为与盈利时的风险规避。随机占优 理论中,二阶随机占优等价于所有凹效用函数的一致偏好排序。
生产与成本 :成本函数在产出 q q q 上为凸,反映边际成本递增 规律。成本函数 C ( w , q ) C(w, q) C ( w , q ) 在要素价格 w w w 上为凹(成本最小化对偶),但对偶地,利润函数在产出价格上为凸——由Hotelling引理 可直接推导。谢泼德引理 (x i ∗ = ∂ C / ∂ w i x_i^* = \partial C / \partial w_i x i ∗ = ∂ C / ∂ w i )与 Hessian 的半负定性均根植于凸分析。
资产定价与固定收益 :布莱克-斯科尔斯 公式中,期权价格在波动率上为凸,这解释了"波动率微笑"与波动率交易策略的利润来源。固定收益中,凸性 指标定义为 Convexity = 1 P d 2 P d y 2 \text{Convexity} = \frac{1}{P} \frac{d^2 P}{dy^2} Convexity = P 1 d y 2 d 2 P ,度量债券价格-收益率曲线的弯曲程度。正凸性使收益率下行时的价格涨幅大于上行时的跌幅,是久期免疫策略必需的二阶风控 指标。而MBS 与可赎回债券中,嵌入的提前偿付期权产生负凸性,导致"凸性对冲"成为固定收益交易中最具挑战性的风险管理工作之一。
激励与契约设计 :委托代理模型 中,代理人的参与约束与激励相容约束常构成凸可行性区域;信息租金函数依据包络定理 在代理人类型上为凸。机制设计 中,可实施分配规则等价于单调性条件,而单调性又等价于某一凸函数的次梯度映射,这揭示了激励相容与凸分析的深层联系。在最优税收 (Mirrlees 模型)中,税收函数的实施条件同样取决于相关函数的凸性。
相关概念与推广
拟凸与对数凸 :拟凸函数(quasiconvex)仅要求下水平集为凸集,弱于凸性,在无差异曲线 分析与单调似然比 中自然出现。对数凸函数(ln f \ln f ln f 凸)在可靠性理论 与信息经济学 的信号甄别中起关键作用。强凸函数 引入二次下界 f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) + μ 2 ∥ y − x ∥ 2 f(y) \geq f(x) + \nabla f(x)^T(y-x) + \frac{\mu}{2}\|y-x\|^2 f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) + 2 μ ∥ y − x ∥ 2 (μ > 0 \mu>0 μ > 0 ),保证了梯度下降的线性收敛 速率。联合凸与对偶 :Fenchel共轭 f ∗ ( y ) = sup x { y T x − f ( x ) } f^*(y) = \sup_x \{y^T x - f(x)\} f ∗ ( y ) = sup x { y T x − f ( x )} 将凸函数对偶映射到另一凸函数,是Lagrange对偶 的几何实质。Bregman散度 D f ( x , y ) = f ( x ) − f ( y ) − ∇ f ( y ) T ( x − y ) D_f(x, y) = f(x) - f(y) - \nabla f(y)^T(x-y) D f ( x , y ) = f ( x ) − f ( y ) − ∇ f ( y ) T ( x − y ) 利用凸性构造非对称距离,广泛应用于信息几何 、镜像下降 与变分推断 。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。