ARTICLE

全期望公式

全期望公式 (Law of Total Expectation / Tower Rule) 全期望公式(Law of Total Expectation,简称 LTE),亦称塔法则(Tower Rule)或重期望公式,是概率论与数理统计中连接无条件期望与条件期望的桥梁定理:E[X] = E[E[X G]]。直观:先按已知信息分组求条件期望,再对这些条件期望按

浏览 0 更新 2025-11-08

全期望公式 (Law of Total Expectation / Tower Rule)

全期望公式(Law of Total Expectation,简称 LTE),亦称塔法则(Tower Rule)或重期望公式,是概率论数理统计中连接无条件期望与条件期望的桥梁定理:E[X]=E[E[XG]]E[X] = E[E[X \mid \mathcal{G}]]。直观:先按已知信息分组求条件期望,再对这些条件期望按分组概率加权平均,即得全局期望。由全概率公式自然导出,是鞅论贝叶斯推断计量经济学的基础工具。

公式与形式

离散形式:设离散随机变量 YY 取值 y1,y2,y_1, y_2, \dots,则:

E[X]=jE[XY=yj]P(Y=yj)E[X] = \sum_j E[X \mid Y=y_j] \cdot P(Y=y_j)

连续形式:若 YY 有密度 fY(y)f_Y(y)

E[X]=E[XY=y]fY(y)dyE[X] = \int E[X \mid Y=y] \, f_Y(y) \, dy

测度论形式:设 G\mathcal{G}sigma-代数(信息集),则 E[X]=E[E[XG]]E[X] = E[E[X \mid \mathcal{G}]]。一般地,若 HG\mathcal{H} \subseteq \mathcal{G}(信息嵌套),则:

E[E[XG]H]=E[XH]E[E[X \mid \mathcal{G}] \mid \mathcal{H}] = E[X \mid \mathcal{H}]

此即塔性质(Tower Property):更粗信息集的期望等于先对更细信息集取条件期望再对粗集取期望。

推导与证明

条件期望定义结合全概率公式直接证明。离散情况:记 Aj={Y=yj}A_j = \{Y = y_j\},则 {Aj}\{A_j\} 构成样本空间的划分。

E[X]=xxP(X=x)=xxjP(X=x,Y=yj)E[X] = \sum_x x \cdot P(X=x) = \sum_x x \sum_j P(X=x, Y=y_j)

交换求和次序:

E[X]=j[xxP(X=xY=yj)]P(Y=yj)=jE[XY=yj]P(Y=yj)E[X] = \sum_j \left[ \sum_x x \cdot P(X=x \mid Y=y_j) \right] P(Y=y_j) = \sum_j E[X \mid Y=y_j] \cdot P(Y=y_j)

连续情况类似,以积分代求和。测度论版本依赖条件期望的部分平均性质:对任意 AGA \in \mathcal{G}AE[XG]dP=AXdP\int_A E[X \mid \mathcal{G}] dP = \int_A X dP。取 A=ΩA = \Omega(全空间),即得 E[E[XG]]=E[X]E[E[X \mid \mathcal{G}]] = E[X]

塔性质与重期望迭代

塔法则可反复嵌套。若 HGF\mathcal{H} \subseteq \mathcal{G} \subseteq \mathcal{F}(信息逐步精细),则:

E[E[E[XF]G]H]=E[XH]E[E[E[X \mid \mathcal{F}] \mid \mathcal{G}] \mid \mathcal{H}] = E[X \mid \mathcal{H}]

特例:H={,Ω}\mathcal{H} = \{\emptyset, \Omega\}(无信息),条件期望退化为无条件期望,即回到全期望公式。塔性质在(Martingale)定义中起核心作用:{Mn}\{M_n\} 是鞅当且仅当 E[Mn+1Fn]=MnE[M_{n+1} \mid \mathcal{F}_n] = M_n,反复应用塔性质可得 E[Mn+kFn]=MnE[M_{n+k} \mid \mathcal{F}_n] = M_n

计算技巧与应用

分段期望计算:当直接求 E[X]E[X] 困难时,引入辅助变量 YY,先求 E[XY]E[X \mid Y],再对 YY 取期望。经典例:复合分布中,设 NPoisson(λ)N \sim \text{Poisson}(\lambda)XiX_i i.i.d.,求随机和 SN=i=1NXiS_N = \sum_{i=1}^N X_i 的期望:

E[SN]=E[E[SNN]]=E[NE[X1]]=E[N]E[X1]=λμE[S_N] = E[E[S_N \mid N]] = E[N \cdot E[X_1]] = E[N] \cdot E[X_1] = \lambda \mu

此即Wald等式(Wald's Equation)的特殊情形。

方差分解:全期望公式与全方差公式配合:

Var(X)=E[Var(XY)]+Var(E[XY])\mathrm{Var}(X) = E[\mathrm{Var}(X \mid Y)] + \mathrm{Var}(E[X \mid Y])

分为"组内方差期望"加"组间期望方差"——是ANOVA随机效应模型的数学基础。

经济与计量应用

理性预期有效市场卢卡斯批判下,代理人利用信息集 It\mathcal{I}_t 形成预期。全期望公式意味着:对未来预期的今日预期等于今日预期——Et[Et+1[X]]=Et[X]E_t[E_{t+1}[X]] = E_t[X](塔性质)。这是欧拉方程迭代和资产定价中无套利条件一致性的保障。

贝叶斯推断:后验期望可写为先验期望的条件期望形式。全期望公式确保贝叶斯估计的无偏性:E[θ^Bayes]=E[E[θData]]=E[θ]E[\hat{\theta}_{\text{Bayes}}] = E[E[\theta \mid \text{Data}]] = E[\theta]——后验期望的先验期望等于先验期望。同理,经验贝叶斯方法依赖此恒等式。

样本理论Rao-Blackwell定理的证明核心用全期望公式:充分统计量 TT 下,改进估计量 θ^=E[θ^T]\hat{\theta}^* = E[\hat{\theta} \mid T],其期望 E[θ^]=E[E[θ^T]]=E[θ^]E[\hat{\theta}^*] = E[E[\hat{\theta} \mid T]] = E[\hat{\theta}] 保无偏性,方差由全方差公式得 Var(θ^)Var(θ^)\mathrm{Var}(\hat{\theta}^*) \le \mathrm{Var}(\hat{\theta})

政策评估:在处理效应框架下,E[Y]=E[YD=1]P(D=1)+E[YD=0]P(D=0)E[Y] = E[Y \mid D=1]P(D=1) + E[Y \mid D=0]P(D=0)——总体期望是处理组与控制组条件期望的加权和。倾向得分匹配双重差分设计都隐含使用全期望公式进行分解。

记忆:全期望 = "先条件期望,再平均"——E[X]=E[E[XY]]E[X] = E[E[X \mid Y]]。直观:若要猜全国平均收入,可先算各省平均收入,再按各省人口加权平均——两步走,等价于直接全国平均。塔法则强调信息嵌套时"由细到粗,平滑过渡"。