期望值 (Expected Value)
期望值 (Expected Value),也称数学期望 (Mathematical Expectation)、均值 (Mean) 或一阶矩 (First Moment),是概率论与统计学中最核心的概念之一。它刻画了随机变量在长期重复实验中取值的加权平均,是随机变量分布中心位置的度量。直观上,期望值回答了这样一个问题:"如果我无限次独立地重复这个随机实验,结果的平均值会趋近于什么?"
数学定义
期望值的定义依赖于随机变量的类型。设 X 是定义在概率空间 (Ω,F,P) 上的随机变量。
离散型随机变量
若 X 是离散型随机变量,取值于可数集 {x1,x2,…},且对应的概率质量函数为 p(xi)=P(X=xi),则其期望值定义为:
E[X]=i∑xi⋅p(xi)
该求和为绝对收敛时,称期望值存在。绝对收敛条件保证了求和结果不依赖于各项的排列顺序。
连续型随机变量
若 X 是连续型随机变量,具有概率密度函数 f(x),则其期望值定义为:
E[X]=∫−∞∞x⋅f(x)dx
同样,该积分必须绝对收敛,即 ∫−∞∞∣x∣f(x)dx<∞ 时,期望值才存在。
一般定义
更一般地,使用勒贝格积分 (Lebesgue Integral),期望值可以统一表示为:
E[X]=∫ΩX(ω)dP(ω)
这一定义涵盖了离散和连续两种情形,且在测度论框架下更为严格。
随机变量函数的期望值
在实际应用中,常需计算随机变量函数的期望值。设 g:R→R 为可测函数,则:
- 离散情形:E[g(X)]=∑ig(xi)⋅p(xi)
- 连续情形:E[g(X)]=∫−∞∞g(x)⋅f(x)dx
这一定理被称为无意识统计学家法则 (Law of the Unconscious Statistician, LOTUS),因为它允许我们在不知道 Y=g(X) 分布的情况下直接计算 E[g(X)]。
核心性质
期望值算子具有以下基本性质,这些性质在推导中极为重要:
线性性
期望值算子是线性算子。对任意常数 a,b∈R 和随机变量 X,Y:
E[aX+bY]=aE[X]+bE[Y]
这一性质不要求 X 和 Y 相互独立,是期望值最强大的特性之一。更一般地,对 n 个随机变量和常数 ci:
E[i=1∑nciXi]=i=1∑nciE[Xi]
独立性与乘积期望
若 X 和 Y 相互独立 (Independent),则:
E[XY]=E[X]⋅E[Y]
需要注意的是,此性质的逆命题不一定成立:E[XY]=E[X]E[Y] 不能推出 X 和 Y 独立(除非对于所有函数 f,g,均有 E[f(X)g(Y)]=E[f(X)]E[g(Y)])。
常数的期望
常数的期望值等于常数本身:
E[c]=c,∀c∈R
单调性
若 X≤Y 几乎处处成立,则 E[X]≤E[Y]。特别地,若 X≥0 几乎处处,则 E[X]≥0。
矩与方差
期望值是随机变量分布的一阶原点矩。更高阶的矩同样基于期望值定义:
- k 阶原点矩:μk′=E[Xk]
- k 阶中心矩:μk=E[(X−E[X])k]
其中,二阶中心矩即为方差 (Variance):
Var(X)=E[(X−E[X])2]=E[X2]−(E[X])2
方差衡量了随机变量围绕其期望值的离散程度。
常见分布的期望值
以下是几个重要分布的期望值列举:
- 伯努利分布 Bernoulli(p):E[X]=p
- 二项分布 Binomial(n,p):E[X]=np
- 泊松分布 Poisson(λ):E[X]=λ
- 几何分布 Geometric(p):E[X]=p1
- 均匀分布 Uniform(a,b):E[X]=2a+b
- 指数分布 Exponential(λ):E[X]=λ1
- 正态分布 Normal(μ,σ2):E[X]=μ
- 伽马分布 Gamma(α,β):E[X]=βα
这些分布的期望值常在应用中直接引用,避免了重新积分的繁琐。
条件期望
定义
给定事件 A 且 P(A)>0,随机变量 X 在 A 下的条件期望 (Conditional Expectation) 定义为:
E[X∣A]=P(A)E[X⋅1A]
更一般地,给定另一个随机变量 Y,E[X∣Y] 是 Y 的函数,且满足:对于所有可测函数 h,有 E[E[X∣Y]⋅h(Y)]=E[X⋅h(Y)]。
全期望公式
全期望公式 (Law of Total Expectation / Law of Iterated Expectations) 将条件期望与无条件期望紧密联系:
E[X]=E[E[X∣Y]]
这一公式在分层分析中是极为实用的工具:可以先在每一层内求均值,再对不同层的均值进行加权平均。
与方差的关系
方差同样满足条件分解:
Var(X)=E[Var(X∣Y)]+Var(E[X∣Y])
即总方差等于条件方差的期望与条件期望的方差之和。
大数定律
期望值的概念与大数定律 (Law of Large Numbers) 密不可分。设 X1,X2,…,Xn 为独立同分布随机变量,且 E[Xi]=μ,则:
- 弱大数定律:样本均值 Xˉn=n1∑i=1nXi 依概率收敛于 μ: \[ \bar{X}_n \xrightarrow{P} \mu \]
- 强大数定律:样本均值几乎必然收敛于 μ: \[ \bar{X}_n \xrightarrow{a.s.} \mu \]
大数定律为"频率趋近于概率"这一直观理解提供了严格的数学基础,也是蒙特卡洛方法和统计推断的基石。
经济学与决策中的应用
期望效用理论
在决策论与经济学中,期望值的思想延伸为期望效用 (Expected Utility)。当决策者面临不确定性时,如果其结果可以用效用函数 u(⋅) 度量,则决策者选择最大化期望效用而非期望货币价值的行为:
a∈AmaxE[u(W(a))]
其中 A 为可选行动集合,W(a) 为采取行动 a 后的财富水平。
公平博弈与风险态度
若一场博弈满足 E[收益]=0,则称为公平博弈 (Fair Game)。然而,现实中大多数决策者表现出风险厌恶 (Risk Aversion),即他们拒绝公平博弈,这等价于效用函数为严格凹函数:u′′(x)<0。詹森不等式给出:
E[u(W)]≤u(E[W])
这表明风险厌恶者偏好确定性的期望财富,而非具有相同期望值的不确定财富。
圣彼得堡悖论
圣彼得堡悖论 (St. Petersburg Paradox) 是期望值概念的经典悖论:考虑一个博弈——反复抛一枚公平硬币直到出现正面;若正面首次出现在第 n 次抛掷,则支付 2n 元。该博弈的期望收益为:
E[W]=n=1∑∞2n⋅2n1=n=1∑∞1=∞
尽管理论期望值为无穷大,现实中几乎没有人愿意支付超过数十元来参与这场博弈。这一悖论推动了期望效用理论的发展,表明人们在决策中最大化的是效用而非货币价值。
注意事项与常见误区
- 期望值未必是可能取值:一枚公平骰子掷出点数的期望值为 3.5,但 3.5 并非骰子的任一可能面值。期望值不必然是样本空间中的元素。
- 期望值的存在性:并非所有分布都具有有限的期望值。柯西分布 (Cauchy Distribution) 即是一个著名的反例:其密度函数为 f(x)=[π(1+x2)]−1,积分 ∫−∞∞∣x∣f(x)dx 发散,因此期望值不存在。
- 期望值不等于"最可能值":在偏态分布中,期望值、中位数和众数三者通常不同。例如对于对数正态分布 lnN(μ,σ2),期望值为 eμ+σ2/2,而众数为 eμ−σ2。
- 线性性不要求独立:期望值的线性性 E[aX+bY]=aE[X]+bE[Y] 对任意随机变量均成立,无论它们是否独立或相关。这一性质使期望值在理论推导中比方差或中位数更方便。
- 与样本均值的区别:期望值是理论分布的特征参数,而样本均值是基于有限数据的统计量。样本均值是期望值的无偏估计量,但两者在概念上有本质区别。