ARTICLE

全期望定律

全期望定律(Law of Total Expectation),亦称迭代期望定律(Law of Iterated Expectations, LIE)或亚当定律(Adam's Law),是概率论中一条核心定理。它指出:对于随机变量 X 和 Y ,条件期望的期望等于 X 的无条件期望,即 该定律的简洁形式背后蕴含着深刻的思想:当我们对某个随机变量掌握部分信息(

浏览 0 更新 2025-10-26

全期望定律(Law of Total Expectation),亦称迭代期望定律(Law of Iterated Expectations, LIE)或亚当定律(Adam's Law),是概率论中一条核心定理。它指出:对于随机变量 X X Y Y ,条件期望的期望等于 X X 的无条件期望,即

E[X]=E[E[XY]]\mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]]。

该定律的简洁形式背后蕴含着深刻的思想:当我们对某个随机变量掌握部分信息(以 Y Y 的形式)时,可以先基于这些信息计算条件期望,再对信息本身取平均,结果恰好等于直接计算的全局期望。这一特性使得全期望定律成为连接条件概率与无条件概率的桥梁,在许多复杂概率问题的求解中发挥着不可替代的作用。

直观理解

全期望定律的直观含义可以用"分层平均"来概括。假设我们想计算某个国家全体居民的平均身高。如果先将居民按省份分组,计算每个省份的平均身高,然后再以各省人口比例为权重计算这些平均身高的加权平均,得到的结果正是全国平均身高。这里,省份就是条件变量 Y Y ,每个省份的平均身高就是 E[XY] \mathbb{E}[X \mid Y] ,而按人口比例的加权平均就是对外层期望 E[] \mathbb{E}[\cdot] 的运算。

这个例子揭示了全期望定律的本质:将复杂问题分解为若干子问题,分别求解后再加权汇总,结果与直接求解一致。 这种"分而治之"的思想在概率论、统计学和机器学习中有着广泛的应用。再举一个更贴近生活的例子:假设我们要估算某座城市居民的平均月收入。我们可以先将居民按职业类别分组(如公务员、企业职员、自由职业者等),分别计算每组内的平均收入,再以各组人数占总人口的比例为权重进行加权平均。由于职业类别与收入水平之间存在相关性,这种分层估算往往比简单随机抽样更为高效和准确。

数学表述

全期望定律有离散形式和连续形式两种表述。

离散形式:Y Y 是离散随机变量,取值为 y1,y2, y_1, y_2, \dots ,则

E[X]=iE[XY=yi]P(Y=yi)\mathbb{E}[X] = \sum_{i} \mathbb{E}[X \mid Y = y_i] \cdot P(Y = y_i)。

连续形式:Y Y 是连续随机变量,概率密度函数为 fY(y) f_Y(y) ,则

E[X]=E[XY=y]fY(y)dy\mathbb{E}[X] = \int_{-\infty}^{\infty} \mathbb{E}[X \mid Y = y] \, f_Y(y) \, dy。

无论是离散还是连续情形,其本质都是对内层条件期望关于 Y Y 的分布取平均。值得注意的是,这里的 Y Y 可以是任意类型的随机变量——标量、向量甚至更复杂的对象——只要条件期望 E[XY] \mathbb{E}[X \mid Y] 定义良好,全期望定律就始终成立。

证明概要

全期望定律的证明依赖于条件期望的定义和联合分布与边缘分布之间的关系。对于离散情形:

E[E[XY]]=yE[XY=y]P(Y=y)=y(xxP(X=xY=y))P(Y=y)=yxxP(X=x,Y=y)=xxyP(X=x,Y=y)=xxP(X=x)=E[X]\begin{aligned} \mathbb{E}[\mathbb{E}[X \mid Y]] &= \sum_{y} \mathbb{E}[X \mid Y = y] \cdot P(Y = y)\\ &= \sum_{y} \left( \sum_{x} x \cdot P(X = x \mid Y = y) \right) P(Y = y)\\ &= \sum_{y} \sum_{x} x \cdot P(X = x, Y = y)\\ &= \sum_{x} x \sum_{y} P(X = x, Y = y)\\ &= \sum_{x} x \cdot P(X = x) = \mathbb{E}[X]。 \end{aligned}

其中第三行利用了联合概率与条件概率的关系 P(X=xY=y)P(Y=y)=P(X=x,Y=y) P(X = x \mid Y = y)P(Y = y) = P(X = x, Y = y) ,第五行通过对 Y Y 的所有取值求和得到 X X 的边缘分布。连续情形的证明类似,只需将求和替换为积分,并将概率质量函数替换为概率密度函数即可。这一证明过程虽然简单,却清晰地展示了全期望定律与概率论基本公理之间的内在联系。

应用举例

1. 随机游走中的首次到达时间

考虑一个在整数点上对称随机游走的粒子,从位置 0 0 出发,每次以等概率 1/2 1/2 向左或向右移动一步。问粒子首次到达位置 1 1 的期望步数。令 T T 为首次到达 1 1 的时间。利用全期望定律,以第一步的移动方向为条件:

E[T]=E[T第一步向右]12+E[T第一步向左]12\mathbb{E}[T] = \mathbb{E}[T \mid \text{第一步向右}] \cdot \frac12 + \mathbb{E}[T \mid \text{第一步向左}] \cdot \frac12。

若第一步向右,则直接到达 1 1 ,故 E[T第一步向右]=1 \mathbb{E}[T \mid \text{第一步向右}] = 1 。若第一步向左,则粒子到达 1 -1 ,此时需先回到 0 0 (期望 a a 步),再从 0 0 到达 1 1 (期望 b b 步),由对称性 a=b=E[T] a = b = \mathbb{E}[T] ,故 E[T第一步向左]=1+2E[T] \mathbb{E}[T \mid \text{第一步向左}] = 1 + 2\mathbb{E}[T] 。代入解得 E[T]=112+(1+2E[T])12 \mathbb{E}[T] = 1 \cdot \frac12 + (1 + 2\mathbb{E}[T]) \cdot \frac12 ,即 E[T]=1+E[T] \mathbb{E}[T] = 1 + \mathbb{E}[T] ——这一矛盾表明对称随机游走在 Z \mathbb{Z} 上是常返的,首次到达时间的期望为无穷大。这个经典例子展示了全期望定律在随机过程理论中的强大威力。

2. 保险公司赔付额估算

保险公司在估算预期赔付额时,常将客户按风险等级分组。设 X X 为年度赔付额,Y Y 为风险等级(如低、中、高)。公司先估计每个风险等级内的平均赔付额 E[XY] \mathbb{E}[X \mid Y] ,再以各等级客户占比为权重求加权平均。全期望定律保证了这一分层估算方法的无偏性——无论风险等级如何划分,最终得到的加权平均值总是赔付额的真正期望值。这种分层方法不仅能简化计算,还能有效降低估计方差,是精算科学中的标准手段。

3. 机器学习中的期望传播

在概率图模型和贝叶斯推断中,全期望定律用于推导期望传播(Expectation Propagation)算法的更新规则。当需要近似计算复杂后验分布的期望时,研究者常引入辅助变量,利用全期望定律将高维积分分解为条件期望的迭代计算。这种方法在主题模型、高斯过程分类等复杂模型中得到了成功应用。

4. 蒙特卡洛方法

在重要性采样和分层采样中,全期望定律为方差缩减技术提供了理论基础。通过将样本空间划分为若干层,在每个层内独立采样估计,再以层概率加权汇总,可以在不引入偏差的前提下显著降低估计量的方差。这一技术被称为分层抽样(Stratified Sampling),是蒙特卡洛模拟中最常用的方差缩减手段之一。

5. 赌博与决策理论

在赌博策略分析中,全期望定律常用于计算复杂博弈的期望收益。例如在二十一点(Blackjack)中,玩家可以根据已亮出的牌面信息计算条件胜率,再对所有可能的亮牌情况取平均,从而得到真实的总体胜率。这一方法同样适用于投资决策分析,帮助投资者在各种市场情景下评估资产的预期收益。

与其他定律的关系

全期望定律是概率论中三条"全"定律之一,另外两条分别是全概率定律(Law of Total Probability)和全方差定律(Law of Total Variance)。三者之间存在紧密联系:

  • 全概率定律P(A)=iP(ABi)P(Bi) P(A) = \sum_i P(A \mid B_i) P(B_i) ,可以视为全期望定律在示性函数上的特例。当 X X 0 0 1 1 的示性函数时,全期望定律退化为全概率定律。
  • 全方差定律Var(X)=E[Var(XY)]+Var(E[XY]) \operatorname{Var}(X) = \mathbb{E}[\operatorname{Var}(X \mid Y)] + \operatorname{Var}(\mathbb{E}[X \mid Y]) ,其推导过程中关键一步就是应用全期望定律。该定律将总方差分解为组内方差的期望和组间方差,在方差分析(ANOVA)中具有重要应用。

这三条定律共同构成了条件概率与条件期望理论的基石,是处理复杂概率问题的强大工具。在实际应用中,它们往往协同使用,帮助我们层层递进地分析和求解问题。

小结

全期望定律 E[X]=E[E[XY]] \mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]] 以其简洁的形式和深刻的内涵,成为概率论中最常用、最重要的定理之一。它告诉我们:面对不确定性问题时,先根据已有信息进行局部判断,再对信息本身取平均,可以系统地得到全局答案。这种"由局部到整体"的思维方式,不仅在数学中至关重要,在科学研究和日常决策中同样具有指导意义。掌握全期望定律,就等于掌握了一种强大的分析工具,能够在面对复杂随机现象时从容不迫地分解问题、寻找答案。