# 詹森不等式 (Jensen's Inequality)
詹森不等式 (Jensen's Inequality),以丹麦数学家约翰·詹森 (Johan Jensen) 的名字命名,是{{{数学分析}}}、{{{概率论}}}、{{{统计学}}}和{{{信息论}}}等领域中一个至关重要的不等式。它的核心思想是建立一个{{{凸函数}}}(Convex Function)作用于一个积分(或期望)的值,与该函数值的积分(或期望)之间的关系。
简而言之,对于一个凸函数,其在所有可能取值均值处的函数值,小于或等于其所有函数值的均值。这个看似简单的性质,却是许多重要数学和经济学结论的基石。
## 不等式的正式表述
詹森不等式有多种表述形式,从最简单的有限形式到最一般的测度论形式。
### 1. 概率论形式 (Probabilistic Form)
这是詹森不等式在统计学和金融学中最常用的形式。
设 $X$ 是一个定义在某个{{{概率空间}}}上的{{{随机变量}}},其{{{期望值}}} $E[X]$ 存在且有限。设 $\varphi$ 是一个{{{凸函数}}},则有:
$$ \varphi(E[X]) \le E[\varphi(X)] $$
解读: * $E[X]$ 是随机变量 $X$ 的数学期望,可以理解为 $X$ 所有可能取值的加权平均值。 * $\varphi(E[X])$ 是先计算 $X$ 的平均值,然后将这个平均值代入函数 $\varphi$ 中求值。 * $E[\varphi(X)]$ 是先对 $X$ 的每一个可能取值 $x$ 计算 $\varphi(x)$,然后再对所有 $\varphi(x)$ 的结果求期望。
如果 $\varphi$ 是一个{{{凹函数}}} (Concave Function),则不等式的方向相反:
$$ \varphi(E[X]) \ge E[\varphi(X)] $$
### 2. 有限形式 (Finite Form)
有限形式是理解詹森不等式最直观的方式,它直接与凸函数的几何定义相关。
设 $\varphi$ 是一个凸函数,对于其定义域中的任意一组点 $x_1, x_2, \dots, x_n$ 和一组满足 $\lambda_i \ge 0$ 且 $\sum_{i=1}^n \lambda_i = 1$ 的权重 $\lambda_1, \lambda_2, \dots, \lambda_n$,下述不等式成立:
$$ \varphi\left(\sum_{i=1}^n \lambda_i x_i\right) \le \sum_{i=1}^n \lambda_i \varphi(x_i) $$
解读: * 表达式 $\sum_{i=1}^n \lambda_i x_i$ 是点集 $\{x_i\}$ 的一个 {{{凸组合}}} (Convex Combination),代表这些点的一个加权平均。 * 此不等式说明,凸函数在点集均值处的取值,小于或等于其在各个点处函数值的加权平均。 * 当所有权重相等,即 $\lambda_i = 1/n$ 时,我们得到一个更简洁的形式: $$ \varphi\left(\frac{x_1 + x_2 + \dots + x_n}{n}\right) \le \frac{\varphi(x_1) + \varphi(x_2) + \dots + \varphi(x_n)}{n} $$
## 几何直观
詹森不等式的几何意义非常清晰。对于一个凸函数,连接其图像上任意两点的{{{弦}}}(secant line segment)必定位于这两点之间的函数图像的上方或与之重合。
以最简单的两点情况为例($n=2$),权重为 $\lambda$ 和 $1-\lambda$(其中 $0 \le \lambda \le 1$):
$$ \varphi(\lambda x_1 + (1-\lambda)x_2) \le \lambda \varphi(x_1) + (1-\lambda)\varphi(x_2) $$
* 左侧的 $\lambda x_1 + (1-\lambda)x_2$ 是点 $x_1$ 和 $x_2$ 之间的一个点。 * 左侧的 $\varphi(\lambda x_1 + (1-\lambda)x_2)$ 是函数在这一点上的值。 * 右侧的 $\lambda \varphi(x_1) + (1-\lambda)\varphi(x_2)$ 是连接点 $(x_1, \varphi(x_1))$ 和 $(x_2, \varphi(x_2))$ 的弦上,对应于同一水平位置的点的高度。
由于凸函数的图像是"向上弯曲"的,函数本身的值(左侧)总是不超过其弦上的值(右侧)。有限形式和概率论形式可以看作是这个几何直观在多点和连续情况下的推广。
## 证明思路 (基于次梯度)
詹森不等式的一个优雅证明利用了凸函数的一个关键性质:在凸函数定义域内的任何一点 $x_0$,都存在至少一条“支撑线”(supporting line)。这意味着存在一个斜率 $c$(称为{{{次梯度}}}),使得对于所有 $x$,都有:
$$ \varphi(x) \ge \varphi(x_0) + c(x - x_0) $$
这条直线在点 $(x_0, \varphi(x_0))$ 处与函数图像相切或位于其下方。
现在,让我们来证明概率论形式 $\varphi(E[X]) \le E[\varphi(X)]$: 1. 令 $x_0 = E[X]$。根据上述凸函数性质,对于随机变量 $X$ 的任意一个实现值 $x$,我们有: $$ \varphi(x) \ge \varphi(E[X]) + c(x - E[X]) $$ 2. 因为这个不等式对 $X$ 的所有可能取值都成立,我们可以将其中的 $x$ 替换为随机变量 $X$ 本身: $$ \varphi(X) \ge \varphi(E[X]) + c(X - E[X]) $$ 3. 现在,对不等式两边同时取数学期望 $E[\cdot]$: $$ E[\varphi(X)] \ge E[\varphi(E[X]) + c(X - E[X])] $$ 4. 利用{{{期望的线性}}}性质,$E[A+B] = E[A] + E[B]$ 以及 $E[kA] = kE[A]$(其中 $k$ 是常数)。注意到 $\varphi(E[X])$ 和 $c$ 都是常数,因此: $$ E[\varphi(X)] \ge E[\varphi(E[X])] + E[c(X - E[X])] $$ $$ E[\varphi(X)] \ge \varphi(E[X]) + c \cdot E[X - E[X]] $$ 5. 根据期望的定义,$E[X - E[X]] = E[X] - E[E[X]] = E[X] - E[X] = 0$。 6. 因此,最后一项为零,我们得到最终结论: $$ E[\varphi(X)] \ge \varphi(E[X]) $$
这完成了证明。
## 等号成立的条件
理解等号何时成立同样重要: * 如果 $\varphi$ 是一个 严格凸函数 (Strictly Convex Function),那么等号 $\varphi(E[X]) = E[\varphi(X)]$ 成立的充分必要条件是 $X$ 是一个常数,即 $X = E[X]$ 的概率为1。在有限形式中,这意味着所有的点都相等:$x_1=x_2=\dots=x_n$。 * 如果 $\varphi$ 只是凸函数(非严格凸),例如它包含一段线性的部分,那么等号成立的条件是随机变量 $X$ 的所有取值都落在这段线性的区间内。
## 应用实例
詹森不等式在各个领域都有广泛而深刻的应用。
### 1. 算术平均数-几何平均数不等式 (AM-GM Inequality)
{{{算术平均数-几何平均数不等式}}}指出,对于一组非负数 $x_1, \dots, x_n$,其算术平均数大于或等于其几何平均数。 $$ \frac{x_1 + \dots + x_n}{n} \ge \sqrt[n]{x_1 \dots x_n} $$ 这个不等式可以通过詹森不等式轻松证明。考虑函数 $\varphi(x) = -\log(x)$。对于 $x>0$,其二阶导数为 $\varphi''(x) = 1/x^2 > 0$,因此它是一个严格凸函数。 根据詹森不等式(有限形式,权重为 $1/n$): $$ -\log\left(\frac{\sum x_i}{n}\right) \le \sum \frac{1}{n}(-\log(x_i)) $$ $$ -\log\left(\frac{\sum x_i}{n}\right) \le -\frac{1}{n}\sum \log(x_i) = -\frac{1}{n}\log(\prod x_i) = -\log\left((\prod x_i)^{1/n}\right) $$ 两边同时乘以 -1,不等号反向: $$ \log\left(\frac{\sum x_i}{n}\right) \ge \log\left(\sqrt[n]{\prod x_i}\right) $$ 由于 $\log$ 函数是单调递增的,所以我们可以去掉 $\log$,不等号方向不变,从而得到AM-GM不等式。
### 2. 经济学中的风险厌恶 (Risk Aversion)
在{{{金融学}}}和{{{微观经济学}}}中,詹森不等式是解释{{{风险厌恶}}}行为的数学基础。一个风险厌恶的个体的{{{效用函数}}} $U(w)$ 是一个关于财富 $w$ 的凹函数($U''(w) < 0$)。
假设一个投资者面临一项不确定的投资(一个随机变量 $W$),其期望财富为 $E[W]$。根据詹森不等式对于凹函数的版本: $$ E[U(W)] \le U(E[W]) $$ 这个不等式的含义是: * $E[U(W)]$ 是这项不确定投资(赌博)带来的期望效用。 * $U(E[W])$ 是直接获得确定性财富 $E[W]$ (即期望收益)所带来的效用。
不等式表明,对于一个风险厌恶者,参与一项不确定性投资的期望效用,低于直接获得其期望收益的效用。这意味着他更偏好于一个确定的结果,而不是一个具有相同期望值的风险结果。差额 $U(E[W]) - E[U(W)]$ 与该投资者愿意为规避风险而支付的{{{风险溢价}}}(Risk Premium)密切相关。
### 3. 信息论 (Information Theory)
詹森不等式是证明信息论中许多基本性质的关键工具,例如{{{吉布斯不等式}}} (Gibbs' Inequality),进而可以证明{{{KL散度}}} (Kullback-Leibler Divergence) 的非负性 $D_{KL}(P||Q) \ge 0$。这为衡量两个概率分布之间的差异提供了理论基础。