ARTICLE

詹森不等式

詹森不等式 (Jensen's Inequality) 詹森不等式(Jensen's Inequality)由丹麦数学家约翰·詹森(Johan Jensen)于1906年提出,是数学分析、概率论、统计学、信息论以及经济学等众多领域中最基本且应用最广的不等式之一。该不等式的核心思想在于揭示凸函数(Convex Function)作用于一个积分(或期望)所得的值

浏览 108 更新 2025-10-26

詹森不等式 (Jensen's Inequality)

詹森不等式(Jensen's Inequality)由丹麦数学家约翰·詹森(Johan Jensen)于1906年提出,是数学分析概率论统计学信息论以及经济学等众多领域中最基本且应用最广的不等式之一。该不等式的核心思想在于揭示凸函数(Convex Function)作用于一个积分(或期望)所得的值,与该函数值的积分(或期望)之间的深刻关系:对于一个凸函数而言,其在均值点处的函数值,永远不会超过其函数值的均值。反之,对于凹函数(Concave Function),不等号方向则相反。这一看似简洁的性质,实际上构成了从风险厌恶理论到信息熵性质证明等众多重要结论的数学基石。

定义与表述形式

詹森不等式根据所处理的对象不同有若干等价的表述形式,其中最常见的是概率论形式和有限形式。

概率论形式

φ \varphi 为定义在实数集上的凸函数,X X 为某个概率空间上的随机变量,其期望值E[X] E[X] 存在且有限。概率论形式的詹森不等式断言:

φ(E[X])E[φ(X)]\varphi(E[X]) \le E[\varphi(X)]

这一表述的直观含义是:如果我们先计算随机变量的期望值,再将其代入凸函数求值,其结果一定不大于先对随机变量的每个可能取值计算函数值、再对这些函数值取期望的结果。当 φ \varphi 为凹函数时,不等号方向反转:φ(E[X])E[φ(X)] \varphi(E[X]) \ge E[\varphi(X)]

有限形式

有限形式更直观地体现了詹森不等式的组合学本质。设 φ \varphi 为凸函数,对于其定义域中的任意一组点 x1,x2,,xn x_1, x_2, \dots, x_n 和一组满足 λi0 \lambda_i \ge 0 i=1nλi=1 \sum_{i=1}^n \lambda_i = 1 的权重系数,有:

φ(i=1nλixi)i=1nλiφ(xi)\varphi\left(\sum_{i=1}^n \lambda_i x_i\right) \le \sum_{i=1}^n \lambda_i \varphi(x_i)

表达式 λixi \sum \lambda_i x_i 是点集 {xi} \{x_i\} 的一个凸组合(Convex Combination),即这些点的加权平均。当所有权重相等(λi=1/n \lambda_i = 1/n )时,上式简化为更简洁的形式:

φ(x1+x2++xnn)φ(x1)+φ(x2)++φ(xn)n\varphi\left(\frac{x_1 + x_2 + \dots + x_n}{n}\right) \le \frac{\varphi(x_1) + \varphi(x_2) + \dots + \varphi(x_n)}{n}

这种形式直接说明了凸函数的均值不小于均值的函数值,在离散数据的分析中尤为常用。

测度论形式

作为以上两种形式的统一推广,测度论形式的詹森不等式适用于一般的测度空间。设 (Ω,F,μ) (\Omega, \mathcal{F}, \mu) 为一个概率空间,f f 为可积函数,φ \varphi 为凸函数,则有:

φ(Ωfdμ)Ωφfdμ\varphi\left(\int_\Omega f \, d\mu\right) \le \int_\Omega \varphi \circ f \, d\mu

μ \mu 取离散测度时便退化为有限形式,当 μ \mu 取概率测度时则退化为概率论形式。

几何直观

理解詹森不等式最直观的方式莫过于几何图形。对于一个凸函数,连接其图像上任意两点的(secant line)必定位于这两点之间的函数图像的上方(或与之重合)。以最简单的两点为例,取 λ[0,1] \lambda \in [0,1]

φ(λx1+(1λ)x2)λφ(x1)+(1λ)φ(x2)\varphi(\lambda x_1 + (1-\lambda)x_2) \le \lambda \varphi(x_1) + (1-\lambda)\varphi(x_2)

左侧是函数在 x1 x_1 x2 x_2 之间某个加权平均点上的取值,右侧则是连接点 (x1,φ(x1)) (x_1, \varphi(x_1)) (x2,φ(x2)) (x_2, \varphi(x_2)) 的弦在同一水平坐标处的高度。由于凸函数的图像呈"向上弯曲"的形状,函数曲线始终位于弦的下方。有限形式和概率论形式均可视为这一几何直觉在多个点或连续情形下的自然推广。

证明思路

詹森不等式的一个简洁而优美的证明利用了凸函数的核心性质——次梯度(Subgradient)的存在性。对于凸函数 φ \varphi 定义域内的任意点 x0 x_0 ,都存在至少一条支撑线(Supporting Line),即存在某个斜率 c c 使得对所有 x x 均有:

φ(x)φ(x0)+c(xx0)\varphi(x) \ge \varphi(x_0) + c(x - x_0)

以概率论形式为例,令 x0=E[X] x_0 = E[X] 。将上述不等式中的 x x 替换为随机变量 X X ,得到 φ(X)φ(E[X])+c(XE[X]) \varphi(X) \ge \varphi(E[X]) + c(X - E[X]) 。对两边取期望,利用期望的线性性质并注意到 E[XE[X]]=0 E[X - E[X]] = 0 ,立即得到 E[φ(X)]φ(E[X]) E[\varphi(X)] \ge \varphi(E[X]) ,证毕。

等号成立的条件

理解等号成立的条件对于精确使用该不等式至关重要。若 φ \varphi 严格凸函数(Strictly Convex Function),则等号 φ(E[X])=E[φ(X)] \varphi(E[X]) = E[\varphi(X)] 成立的充分必要条件是 X X 几乎必然为常数,即 X=E[X] X = E[X] 的概率为1。在有限形式中,这意味着所有点相等:x1=x2==xn x_1 = x_2 = \dots = x_n 。若 φ \varphi 仅为凸函数(非严格),例如在其定义域的某个子区间内为线性函数,则等号成立的条件是 X X 的所有取值落在该线性区间内。

重要应用

詹森不等式的影响力遍及数学和应用的各个分支,以下是几个代表性的例子。

1. 算术-几何平均不等式(AM-GM)

x1,,xn>0 x_1, \dots, x_n > 0 。考虑函数 φ(x)=logx \varphi(x) = -\log x ,其满足 φ(x)=1/x2>0 \varphi''(x) = 1/x^2 > 0 ,故为严格凸函数。代入詹森不等式(有限形式,等权重)可得:

log(xin)1nlogxi=log(xin)-\log\left(\frac{\sum x_i}{n}\right) \le -\frac{1}{n}\sum \log x_i = -\log\left(\sqrt[n]{\prod x_i}\right)

两边同乘 1 -1 并利用 log \log 的单调性,即得经典结论:

x1++xnnx1xnn\frac{x_1 + \dots + x_n}{n} \ge \sqrt[n]{x_1 \cdots x_n}

即算术平均数不小于几何平均数,等号当且仅当所有 xi x_i 相等时成立。

2. 金融经济学中的风险厌恶

微观经济学金融学中,风险厌恶者的效用函数U(w) U(w) 关于财富 w w 为凹函数(U(w)<0 U''(w) < 0 )。假设投资者面临不确定财富 W W ,期望财富为 E[W] E[W] 。根据凹函数版本的詹森不等式:

E[U(W)]U(E[W])E[U(W)] \le U(E[W])

该式表明:参与不确定投资带来的期望效用,低于直接获得等额确定性财富带来的效用。这正是风险厌恶行为的数学表达。两者的差额 U(E[W])E[U(W)] U(E[W]) - E[U(W)] 与投资者愿意支付以规避风险的风险溢价(Risk Premium)直接相关,是资本资产定价模型等理论的重要基础。

3. 信息论中的应用

詹森不等式是信息论中证明吉布斯不等式(Gibbs' Inequality)和KL散度(Kullback-Leibler Divergence)非负性的核心工具。由于 logx -\log x 为凸函数,利用詹森不等式可直接证明对任意两个概率分布 P P Q Q ,有 DKL(PQ)0 D_{KL}(P \| Q) \ge 0 ,等号成立当且仅当 P=Q P = Q 几乎处处成立。这一性质是交叉熵互信息等核心概念的理论基石。

4. 统计学习与最优化

机器学习最优化理论中,詹森不等式是期望最大化算法(EM Algorithm)收敛性证明的关键步骤。该算法通过构造对数似然的下界并逐步优化,而詹森不等式恰好为这一下界的构造提供了严谨的数学保证。此外,凸优化领域中许多关于凸函数极值性质的理论也直接依赖于詹森不等式。

历史与意义

约翰·詹森在1906年发表论文《Sur les fonctions convexes et les inégalités entre les valeurs moyennes》系统阐述了该不等式。自那以后,詹森不等式已成为分析学中最基本的不等式之一,与柯西-施瓦茨不等式赫尔德不等式等并列为数学分析的支柱。它的普适性体现在:无论处理的是有限个离散点、一个随机变量还是一个一般的测度空间,该不等式都能以统一的形式发挥作用,这正是其数学力量的体现。