ARTICLE

凹函数

凹函数 (Concave Function) 凹函数(Concave Function)是数学分析、最优化理论和经济学中的基本概念。一个实值函数 f 若其定义域为凸集,且对定义域中任意两点 x_1, x_2,连接 (x_1, f(x_1)) 与 (x_2, f(x_2)) 的线段上的任意一点均位于函数图像下方(或恰在图像上),则称 f 为凹函数。凹函数的几何

浏览 54 更新 2025-10-18

凹函数 (Concave Function)

凹函数(Concave Function)是数学分析、最优化理论经济学中的基本概念。一个实值函数 ff 若其定义域为凸集,且对定义域中任意两点 x1,x2x_1, x_2,连接 (x1,f(x1))(x_1, f(x_1))(x2,f(x2))(x_2, f(x_2)) 的线段上的任意一点均位于函数图像下方(或恰在图像上),则称 ff 为凹函数。凹函数的几何直觉是对"向上弯曲"或"递减的增长率"的刻画,与凸函数(Convex Function)正好相反——ff 凹当且仅当 f-f 凸,这一对偶关系使得凸分析的全部理论均可通过取负号迁移至凹函数。

形式化定义

f:DRf: D \to \mathbb{R} 的定义域 DD 为凸集(如一个区间或整个实数R\mathbb{R})。若对任意 x1,x2Dx_1, x_2 \in Dλ[0,1]\lambda \in [0, 1],恒有:

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2)f(\lambda x_1 + (1-\lambda)x_2) \ge \lambda f(x_1) + (1-\lambda)f(x_2)

ff凹函数。当 x1x2x_1 \neq x_2λ(0,1)\lambda \in (0, 1) 时不等式严格成立(>>),则称严格凹函数(Strictly Concave Function)。

该定义的几何意义极其清晰:λx1+(1λ)x2\lambda x_1 + (1-\lambda)x_2x1,x2x_1, x_2 间线段上的点,λf(x1)+(1λ)f(x2)\lambda f(x_1) + (1-\lambda)f(x_2) 是连接两点函数值的弦上的点。因此,凹函数意味着连接图像上任意两点的弦必位于函数图像下方(或与之重合)。严格凹函数中,弦除端点外严格位于图像下方。

定义直接推广为离散Jensen不等式(凹函数版本):对非负权重 λi\lambda_i 满足 λi=1\sum \lambda_i = 1,有 f(λixi)λif(xi)f(\sum \lambda_i x_i) \ge \sum \lambda_i f(x_i)。概率形式为 f(E[X])E[f(X)]f(\mathbb{E}[X]) \ge \mathbb{E}[f(X)]——凹函数下期望的函数值不小于函数的期望值,该性质在风险厌恶理论与信息论中反复出现。

与凸函数的对偶关系

凹函数与凸函数的对偶关系是分析中的核心桥梁:ff 为凹函数     \iff f-f 为凸函数。这一看似平凡的事实使得所有凸函数理论——从Jensen不等式Fenchel共轭再到次微分——均可直接通过符号反转应用于凹函数。最大化凹函数完全等价于最小化凸函数,因此凸优化的全部算法(梯度下降牛顿法内点法)均可无修改地用于凹函数最大化问题。

判定准则

一阶条件

ff 可微,则 ff 为凹函数当且仅当对定义域中任意 x,x0x, x_0

f(x)f(x0)+f(x0)(xx0)f(x) \le f(x_0) + f'(x_0)(x - x_0)

该不等式的几何意义是:函数图像始终位于其任意一点切线下方(或与切线重合)——切线是函数的全局上估计(global overestimator)。这一性质与凸函数恰好相反(凸函数图像在切线上方)。直接推论:任何临界点 f(x)=0f'(x^*) = 0 必为全局极大点,这是凹函数在优化中优良性质的根本来源。

多元推广:对可微的 f:RnRf: \mathbb{R}^n \to \mathbb{R},凹性等价于:

f(x)f(x0)+f(x0)T(xx0),x,x0Df(\mathbf{x}) \le f(\mathbf{x}_0) + \nabla f(\mathbf{x}_0)^T (\mathbf{x} - \mathbf{x}_0), \quad \forall \mathbf{x}, \mathbf{x}_0 \in D

其中 f(x0)\nabla f(\mathbf{x}_0)梯度

二阶条件

ff 二阶可微,判定极为简洁:

  • ff凹函数     \iff 二阶导数处处非正:f(x)0f''(x) \le 0,对所有 xx 成立。
  • f(x)<0f''(x) < 0 处处成立,则 ff严格凹函数(反之不必然:f(x)=x4f(x) = -x^4 是严格凹函数,但 f(0)=0f''(0) = 0)。

这是单变量函数凹凸性最常用的判别法。直观上,f0f'' \le 0 意味着"斜率单调不增"——函数增长得越来越慢或下降得越来越快。

多元推广:ff    \iffHessian矩阵 2f(x)\nabla^2 f(\mathbf{x}) 在定义域内处处负半定。若 Hessian 处处负定,则 ff 严格凹。Hessian 的负半定性可通过特征值全部非正或顺序主子式满足符号交替条件(负定则顺序主子式符号从负开始交替)来验证。

上图刻画

ff 凹当且仅当其下子图(hypograph)hypo(f)={(x,t)f(x)t}\operatorname{hypo}(f) = \{(x, t) \mid f(x) \ge t\} 为凸集。该几何视角将函数凹性与集合凸性统一:凹函数的"下方区域"为凸集,凸函数的"上方区域"(上图,epigraph)为凸集。这一事实在对偶理论拟凹函数的研究中至关重要。

保持凹性的运算

以下运算保证凹性在复杂模型中具有极强的可组合性:

  1. 非负加权和:若 f1,,fkf_1, \dots, f_k 均凹,则对任意 ci0c_i \ge 0icifi\sum_i c_i f_i 亦凹。
  2. 逐点下确界:若 {fα}αA\{f_\alpha\}_{\alpha \in A} 是一族凹函数,则 g(x)=infαAfα(x)g(x) = \inf_{\alpha \in A} f_\alpha(x) 亦凹。在经济学中,间接效用函数在价格上的凹性即由此性质导出。
  3. 与仿射映射的复合:若 ff 凹,则 g(x)=f(Ax+b)g(x) = f(Ax + b) 亦凹。
  4. 部分极大化:若 f(x,y)f(x, y) 关于 (x,y)(x, y) 联合凹,则 g(x)=supyf(x,y)g(x) = \sup_y f(x, y) 在适当条件下保持凹性——这是包络定理与值函数分析的数学基础。

经济学应用

凹函数在经济学中以多重面貌出现,其重要性贯穿微观、宏观与金融经济学。

效用函数与边际效用递减

在微观经济学中,消费者的效用函数 U(x)U(x) 通常假设为凹函数——这等价于边际效用递减(Diminishing Marginal Utility):每增加一单位商品消费,带来的额外满足感递减。形式上,U(x)0U''(x) \le 0 精确刻画了这一经验规律。凹效用函数还意味着消费者偏好多样化(厌恶极端消费束),因为:

U(x1+x22)U(x1)+U(x2)2U\left(\frac{x_1 + x_2}{2}\right) \ge \frac{U(x_1) + U(x_2)}{2}

即等量消费两种商品的平均组合至少与消费任一极端组合的期望效用相当。

Cobb-Douglas 效用函数 U(x,y)=xαyβU(x, y) = x^\alpha y^\betaα,β>0,α+β<1\alpha, \beta > 0, \alpha + \beta < 1)取对数后 lnU=αlnx+βlny\ln U = \alpha \ln x + \beta \ln y 即由凹函数 ln\ln 的加权和构成,严格凹。CES效用函数在替代弹性小于 1 时亦为凹。

风险厌恶

凹效用函数直接等同于风险厌恶(Risk Aversion)。在期望效用理论冯·诺依曼-摩根斯特恩框架)中,若决策者效用函数 uu 凹(u<0u'' < 0),则由 Jensen 不等式:

E[u(W)]u(E[W])\mathbb{E}[u(W)] \le u(\mathbb{E}[W])

即随机财富的期望效用小于期望财富的效用。这意味着决策者宁愿接受确定的 E[W]\mathbb{E}[W],也不愿参与具有相同期望值的公平赌博——这正是风险厌恶的定义。

Arrow-Pratt绝对风险厌恶系数 A(x)=u(x)/u(x)A(x) = -u''(x)/u'(x) 将凹性量化为风险价格:A(x)A(x) 越大,效用在 xx 处的标准化二阶凹性越强,个体对风险的规避越强烈。常见的CRRA(常相对风险厌恶)和CARA(常绝对风险厌恶)效用函数族均建立在严格凹性之上。

生产函数与规模报酬

凹的生产函数 F(K,L)F(K, L) 描述规模报酬递减(Diminishing Returns to Scale):投入加倍,产出不到加倍。Cobb-Douglas生产函数 F(K,L)=AKαLβF(K, L) = A K^\alpha L^\betaα+β<1\alpha + \beta < 1 时凹——此时边际产出 FK,FLF_K, F_L 分别递减。生产函数的凹性保证了利润最大化问题存在唯一的内部最优解,且成本函数在要素价格上为凹(由成本最小化的对偶性导出)。

信息经济学与契约理论

委托代理模型中,信息租金函数依据包络定理在代理人类型上为凸(等价于在负类型上为凹),激励相容约束的全局有效性等价于分配函数的单调性,而单调性又等价于信息租金函数的凹性——这是机制设计最优税收(Mirrlees 模型)中激励可行的代数本质。

最优化意义

凹函数在优化理论中具有"黄金性质":任何局部极大值必为全局极大值。这使凹函数的最大化与凸函数的最小化成为数学优化的中心范式。若 ff 凹且约束集为凸集(凸规划),则KKT条件为全局最优的充分条件(在适当约束规范下)。在凸优化框架下,最大化一个凹函数等价于最小化一个凸函数(取 f-f),因此成熟的凸优化算法——梯度上升牛顿法拟牛顿法(BFGS)——均可直接应用。在机器学习中,最大似然估计常涉及最大化对数似然函数 (θ)=ilnp(xiθ)\ell(\theta) = \sum_i \ln p(x_i \mid \theta);当对数似然为凹时(如指数族分布),即可保证任何局部极值即为全局最优的 MLE。

典型示例

  1. 平方取负 f(x)=x2f(x) = -x^2:严格凹于 R\mathbb{R}f(x)=2<0f''(x) = -2 < 0。是最简单的严格凹函数原型。
  2. 平方根 f(x)=xf(x) = \sqrt{x}x0x \ge 0):f(x)=12x1/2f'(x) = \frac{1}{2}x^{-1/2}f(x)=14x3/2<0f''(x) = -\frac{1}{4}x^{-3/2} < 0x>0x > 0),严格凹。常用于刻画风险厌恶边际效用递减
  3. 自然对数 f(x)=lnxf(x) = \ln xx>0x > 0):f(x)=1/x2<0f''(x) = -1/x^2 < 0,严格凹。是经济学中最常见的凹函数,广泛用于效用函数(如 U(x)=lnxU(x) = \ln x)、生产函数、最大似然估计(对数似然)和信息论)。
  4. 负指数 f(x)=exf(x) = -e^xf(x)=ex<0f''(x) = -e^x < 0,严格凹于 R\mathbb{R}。在统计力学与LogSumExp函数的凹性分析中出现。
  5. Cobb-Douglas 函数(对数形式)lnF(K,L)=lnA+αlnK+βlnL\ln F(K, L) = \ln A + \alpha \ln K + \beta \ln L:由凹函数 ln\ln 的非负加权和构成,凹。
  6. 负熵 f(x)=xlnxf(x) = -x \ln xx>0x > 0):f(x)=1/x<0f''(x) = -1/x < 0,严格凹。是信息论函数的负值。

相关概念

凹函数与多个邻近概念形成精细的概念网络:

  • 拟凹函数(Quasiconcave Function):仅要求上水平集 {xf(x)t}\{x \mid f(x) \ge t\} 为凸集,比凹性弱。凹函数必为拟凹,但拟凹函数不一定凹(如 f(x)=x3f(x) = x^3R\mathbb{R} 上拟凹但不凹)。拟凹性在效用最大化问题中足以保证 Marshall 需求函数的凸性,但凹性提供了更强的对偶性质。
  • 对数凹函数(Log-concave Function)lnf\ln f 为凹,介于凹性与拟凹性之间。对数凹性在可靠性理论信号甄别单调似然比性质中自然出现。
  • 强凹函数(Strongly Concave Function):存在 μ>0\mu > 0 使得 f(x)μ2x2f(x) - \frac{\mu}{2}\|x\|^2 仍为凹——等价于 Hessian 满足 2f(x)μI\nabla^2 f(x) \preceq -\mu I。强凹性保证梯度上升的线性收敛速率,在优化算法分析中至关重要。
  • 上凹/下凹:部分旧文献区分"上凹"(concave upward,实为凸)与"下凹"(concave downward,实为凹),现代数学与经济学已统一使用"凸/凹"的 Jensen 定义,建议避免混淆。

常见误区

  1. 混淆凹性与递减性:凹函数不必是递减的(lnx\ln x 递增但凹),递减函数也不必是凹的(x3-x^3R+\mathbb{R}^+ 递减但凸)。凹性刻画的是增长率的变化方向,而非函数值的变化方向。
  2. 混淆严格凹与 f<0f'' < 0f(x)<0f''(x) < 0 是严格凹的充分非必要条件。反例:f(x)=x4f(x) = -x^4 严格凹于 R\mathbb{R},但 f(0)=0f''(0) = 0
  3. 局部与全局:凹性必须对定义域中所有点对成立。仅在某区间内 f0f'' \le 0 不足以保证全局凹性。
  4. 多变量凹性与边际凹性:多变量函数可能是逐分量凹的(对每个变量单独凹)但非联合凹。例如,f(x,y)=xyf(x, y) = xy 固定 yy 时对 xx 是线性的(既凹且凸),但对 (x,y)(x, y) 联合非凹(Hessian 特征值异号)。联合凹性是需要单独验证的强条件。