全期望公式 (Law of Total Expectation / Tower Rule)
全期望公式 (Law of Total Expectation,简称 LTE),亦称塔法则 (Tower Rule)或重期望公式 ,是概率论 与数理统计 中连接无条件期望与条件期望 的桥梁定理:E [ X ] = E [ E [ X ∣ G ] ] E[X] = E[E[X \mid \mathcal{G}]] E [ X ] = E [ E [ X ∣ G ]] 。直观:先按已知信息分组求条件期望,再对这些条件期望按分组概率加权平均,即得全局期望。由全概率公式自然导出,是鞅论 、贝叶斯推断 、计量经济学 的基础工具。
公式与形式
离散形式 :设离散随机变量 Y Y Y 取值 y 1 , y 2 , … y_1, y_2, \dots y 1 , y 2 , … ,则:
E [ X ] = ∑ j E [ X ∣ Y = y j ] ⋅ P ( Y = y j ) E[X] = \sum_j E[X \mid Y=y_j] \cdot P(Y=y_j) E [ X ] = j ∑ E [ X ∣ Y = y j ] ⋅ P ( Y = y j )
连续形式 :若 Y Y Y 有密度 f Y ( y ) f_Y(y) f Y ( y ) :
E [ X ] = ∫ E [ X ∣ Y = y ] f Y ( y ) d y E[X] = \int E[X \mid Y=y] \, f_Y(y) \, dy E [ X ] = ∫ E [ X ∣ Y = y ] f Y ( y ) d y
测度论形式 :设 G \mathcal{G} G 为sigma-代数 (信息集),则 E [ X ] = E [ E [ X ∣ G ] ] E[X] = E[E[X \mid \mathcal{G}]] E [ X ] = E [ E [ X ∣ G ]] 。一般地,若 H ⊆ G \mathcal{H} \subseteq \mathcal{G} H ⊆ G (信息嵌套),则:
E [ E [ X ∣ G ] ∣ H ] = E [ X ∣ H ] E[E[X \mid \mathcal{G}] \mid \mathcal{H}] = E[X \mid \mathcal{H}] E [ E [ X ∣ G ] ∣ H ] = E [ X ∣ H ]
此即塔性质 (Tower Property):更粗信息集的期望等于先对更细信息集取条件期望再对粗集取期望。
推导与证明
由条件期望 定义结合全概率公式 直接证明。离散情况:记 A j = { Y = y j } A_j = \{Y = y_j\} A j = { Y = y j } ,则 { A j } \{A_j\} { A j } 构成样本空间的划分。
E [ X ] = ∑ x x ⋅ P ( X = x ) = ∑ x x ∑ j P ( X = x , Y = y j ) E[X] = \sum_x x \cdot P(X=x) = \sum_x x \sum_j P(X=x, Y=y_j) E [ X ] = x ∑ x ⋅ P ( X = x ) = x ∑ x j ∑ P ( X = x , Y = y j )
交换求和次序:
E [ X ] = ∑ j [ ∑ x x ⋅ P ( X = x ∣ Y = y j ) ] P ( Y = y j ) = ∑ j E [ X ∣ Y = y j ] ⋅ P ( Y = y j ) E[X] = \sum_j \left[ \sum_x x \cdot P(X=x \mid Y=y_j) \right] P(Y=y_j) = \sum_j E[X \mid Y=y_j] \cdot P(Y=y_j) E [ X ] = j ∑ [ x ∑ x ⋅ P ( X = x ∣ Y = y j ) ] P ( Y = y j ) = j ∑ E [ X ∣ Y = y j ] ⋅ P ( Y = y j )
连续情况类似,以积分代求和。测度论版本依赖条件期望的部分平均性质:对任意 A ∈ G A \in \mathcal{G} A ∈ G ,∫ A E [ X ∣ G ] d P = ∫ A X d P \int_A E[X \mid \mathcal{G}] dP = \int_A X dP ∫ A E [ X ∣ G ] d P = ∫ A X d P 。取 A = Ω A = \Omega A = Ω (全空间),即得 E [ E [ X ∣ G ] ] = E [ X ] E[E[X \mid \mathcal{G}]] = E[X] E [ E [ X ∣ G ]] = E [ X ] 。
塔性质与重期望迭代
塔法则可反复嵌套。若 H ⊆ G ⊆ F \mathcal{H} \subseteq \mathcal{G} \subseteq \mathcal{F} H ⊆ G ⊆ F (信息逐步精细),则:
E [ E [ E [ X ∣ F ] ∣ G ] ∣ H ] = E [ X ∣ H ] E[E[E[X \mid \mathcal{F}] \mid \mathcal{G}] \mid \mathcal{H}] = E[X \mid \mathcal{H}] E [ E [ E [ X ∣ F ] ∣ G ] ∣ H ] = E [ X ∣ H ]
特例:H = { ∅ , Ω } \mathcal{H} = \{\emptyset, \Omega\} H = { ∅ , Ω } (无信息),条件期望退化为无条件期望,即回到全期望公式。塔性质在鞅 (Martingale)定义中起核心作用:{ M n } \{M_n\} { M n } 是鞅当且仅当 E [ M n + 1 ∣ F n ] = M n E[M_{n+1} \mid \mathcal{F}_n] = M_n E [ M n + 1 ∣ F n ] = M n ,反复应用塔性质可得 E [ M n + k ∣ F n ] = M n E[M_{n+k} \mid \mathcal{F}_n] = M_n E [ M n + k ∣ F n ] = M n 。
计算技巧与应用
分段期望计算 :当直接求 E [ X ] E[X] E [ X ] 困难时,引入辅助变量 Y Y Y ,先求 E [ X ∣ Y ] E[X \mid Y] E [ X ∣ Y ] ,再对 Y Y Y 取期望。经典例:复合分布 中,设 N ∼ Poisson ( λ ) N \sim \text{Poisson}(\lambda) N ∼ Poisson ( λ ) ,X i X_i X i i.i.d.,求随机和 S N = ∑ i = 1 N X i S_N = \sum_{i=1}^N X_i S N = ∑ i = 1 N X i 的期望:
E [ S N ] = E [ E [ S N ∣ N ] ] = E [ N ⋅ E [ X 1 ] ] = E [ N ] ⋅ E [ X 1 ] = λ μ E[S_N] = E[E[S_N \mid N]] = E[N \cdot E[X_1]] = E[N] \cdot E[X_1] = \lambda \mu E [ S N ] = E [ E [ S N ∣ N ]] = E [ N ⋅ E [ X 1 ]] = E [ N ] ⋅ E [ X 1 ] = λ μ
此即Wald等式 (Wald's Equation)的特殊情形。
方差分解 :全期望公式与全方差公式 配合:
V a r ( X ) = E [ V a r ( X ∣ Y ) ] + V a r ( E [ X ∣ Y ] ) \mathrm{Var}(X) = E[\mathrm{Var}(X \mid Y)] + \mathrm{Var}(E[X \mid Y]) Var ( X ) = E [ Var ( X ∣ Y )] + Var ( E [ X ∣ Y ])
分为"组内方差期望"加"组间期望方差"——是ANOVA 和随机效应模型 的数学基础。
经济与计量应用
理性预期 与有效市场 :卢卡斯 批判下,代理人利用信息集 I t \mathcal{I}_t I t 形成预期。全期望公式意味着:对未来预期的今日预期等于今日预期——E t [ E t + 1 [ X ] ] = E t [ X ] E_t[E_{t+1}[X]] = E_t[X] E t [ E t + 1 [ X ]] = E t [ X ] (塔性质)。这是欧拉方程 迭代和资产定价 中无套利条件一致性的保障。
贝叶斯推断 :后验期望可写为先验期望的条件期望形式。全期望公式确保贝叶斯估计的无偏性:E [ θ ^ Bayes ] = E [ E [ θ ∣ Data ] ] = E [ θ ] E[\hat{\theta}_{\text{Bayes}}] = E[E[\theta \mid \text{Data}]] = E[\theta] E [ θ ^ Bayes ] = E [ E [ θ ∣ Data ]] = E [ θ ] ——后验期望的先验期望等于先验期望。同理,经验贝叶斯 方法依赖此恒等式。
样本理论 :Rao-Blackwell定理 的证明核心用全期望公式:充分统计量 T T T 下,改进估计量 θ ^ ∗ = E [ θ ^ ∣ T ] \hat{\theta}^* = E[\hat{\theta} \mid T] θ ^ ∗ = E [ θ ^ ∣ T ] ,其期望 E [ θ ^ ∗ ] = E [ E [ θ ^ ∣ T ] ] = E [ θ ^ ] E[\hat{\theta}^*] = E[E[\hat{\theta} \mid T]] = E[\hat{\theta}] E [ θ ^ ∗ ] = E [ E [ θ ^ ∣ T ]] = E [ θ ^ ] 保无偏性,方差由全方差公式得 V a r ( θ ^ ∗ ) ≤ V a r ( θ ^ ) \mathrm{Var}(\hat{\theta}^*) \le \mathrm{Var}(\hat{\theta}) Var ( θ ^ ∗ ) ≤ Var ( θ ^ ) 。
政策评估 :在处理效应 框架下,E [ Y ] = E [ Y ∣ D = 1 ] P ( D = 1 ) + E [ Y ∣ D = 0 ] P ( D = 0 ) E[Y] = E[Y \mid D=1]P(D=1) + E[Y \mid D=0]P(D=0) E [ Y ] = E [ Y ∣ D = 1 ] P ( D = 1 ) + E [ Y ∣ D = 0 ] P ( D = 0 ) ——总体期望是处理组与控制组条件期望的加权和。倾向得分匹配 与双重差分 设计都隐含使用全期望公式进行分解。
记忆 :全期望 = "先条件期望,再平均"——E [ X ] = E [ E [ X ∣ Y ] ] E[X] = E[E[X \mid Y]] E [ X ] = E [ E [ X ∣ Y ]] 。直观:若要猜全国平均收入,可先算各省平均收入,再按各省人口加权平均——两步走,等价于直接全国平均。塔法则强调信息嵌套时"由细到粗,平滑过渡"。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。