ARTICLE

expected value

期望值 (Expected Value) 期望值 (Expected Value),也称数学期望 (Mathematical Expectation)、均值 (Mean) 或一阶矩 (First Moment),是概率论与统计学中最核心的概念之一。它刻画了随机变量在长期重复实验中取值的加权平均,是随机变量分布中心位置的度量。直观上,期望值回答了这样一个问题:

浏览 0 更新 2026-05-25

期望值 (Expected Value)

期望值 (Expected Value),也称数学期望 (Mathematical Expectation)、均值 (Mean) 或一阶矩 (First Moment),是概率论统计学中最核心的概念之一。它刻画了随机变量在长期重复实验中取值的加权平均,是随机变量分布中心位置的度量。直观上,期望值回答了这样一个问题:"如果我无限次独立地重复这个随机实验,结果的平均值会趋近于什么?"

数学定义

期望值的定义依赖于随机变量的类型。设 XX 是定义在概率空间 (Ω,F,P)(\Omega, \mathcal{F}, P) 上的随机变量。

离散型随机变量

XX 是离散型随机变量,取值于可数集 {x1,x2,}\{x_1, x_2, \ldots\},且对应的概率质量函数p(xi)=P(X=xi)p(x_i) = P(X = x_i),则其期望值定义为:

E[X]=ixip(xi)E[X] = \sum_{i} x_i \cdot p(x_i)

该求和为绝对收敛时,称期望值存在。绝对收敛条件保证了求和结果不依赖于各项的排列顺序。

连续型随机变量

XX 是连续型随机变量,具有概率密度函数 f(x)f(x),则其期望值定义为:

E[X]=xf(x)dxE[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx

同样,该积分必须绝对收敛,即 xf(x)dx<\int_{-\infty}^{\infty} |x| f(x) \, dx < \infty 时,期望值才存在。

一般定义

更一般地,使用勒贝格积分 (Lebesgue Integral),期望值可以统一表示为:

E[X]=ΩX(ω)dP(ω)E[X] = \int_{\Omega} X(\omega) \, dP(\omega)

这一定义涵盖了离散和连续两种情形,且在测度论框架下更为严格。

随机变量函数的期望值

在实际应用中,常需计算随机变量函数的期望值。设 g:RRg: \mathbb{R} \to \mathbb{R} 为可测函数,则:

  • 离散情形E[g(X)]=ig(xi)p(xi)E[g(X)] = \sum_{i} g(x_i) \cdot p(x_i)
  • 连续情形E[g(X)]=g(x)f(x)dxE[g(X)] = \int_{-\infty}^{\infty} g(x) \cdot f(x) \, dx

这一定理被称为无意识统计学家法则 (Law of the Unconscious Statistician, LOTUS),因为它允许我们在不知道 Y=g(X)Y = g(X) 分布的情况下直接计算 E[g(X)]E[g(X)]

核心性质

期望值算子具有以下基本性质,这些性质在推导中极为重要:

线性性

期望值算子是线性算子。对任意常数 a,bRa, b \in \mathbb{R} 和随机变量 X,YX, Y

E[aX+bY]=aE[X]+bE[Y]E[aX + bY] = aE[X] + bE[Y]

这一性质不要求 XXYY 相互独立,是期望值最强大的特性之一。更一般地,对 nn 个随机变量和常数 cic_i

E[i=1nciXi]=i=1nciE[Xi]E\left[\sum_{i=1}^{n} c_i X_i\right] = \sum_{i=1}^{n} c_i E[X_i]

独立性与乘积期望

XXYY 相互独立 (Independent),则:

E[XY]=E[X]E[Y]E[XY] = E[X] \cdot E[Y]

需要注意的是,此性质的逆命题不一定成立:E[XY]=E[X]E[Y]E[XY] = E[X]E[Y] 不能推出 XXYY 独立(除非对于所有函数 f,gf, g,均有 E[f(X)g(Y)]=E[f(X)]E[g(Y)]E[f(X)g(Y)] = E[f(X)]E[g(Y)])。

常数的期望

常数的期望值等于常数本身:

E[c]=c,cRE[c] = c, \quad \forall c \in \mathbb{R}

单调性

XYX \leq Y 几乎处处成立,则 E[X]E[Y]E[X] \leq E[Y]。特别地,若 X0X \geq 0 几乎处处,则 E[X]0E[X] \geq 0

矩与方差

期望值是随机变量分布的一阶原点矩。更高阶的矩同样基于期望值定义:

  • kk 阶原点矩μk=E[Xk]\mu_k' = E[X^k]
  • kk 阶中心矩μk=E[(XE[X])k]\mu_k = E[(X - E[X])^k]

其中,二阶中心矩即为方差 (Variance):

Var(X)=E[(XE[X])2]=E[X2](E[X])2\text{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2

方差衡量了随机变量围绕其期望值的离散程度。

常见分布的期望值

以下是几个重要分布的期望值列举:

  1. 伯努利分布 Bernoulli(pp)E[X]=pE[X] = p
  2. 二项分布 Binomial(n,pn, p)E[X]=npE[X] = np
  3. 泊松分布 Poisson(λ\lambda)E[X]=λE[X] = \lambda
  4. 几何分布 Geometric(pp)E[X]=1pE[X] = \frac{1}{p}
  5. 均匀分布 Uniform(a,ba, b)E[X]=a+b2E[X] = \frac{a + b}{2}
  6. 指数分布 Exponential(λ\lambda)E[X]=1λE[X] = \frac{1}{\lambda}
  7. 正态分布 Normal(μ,σ2\mu, \sigma^2)E[X]=μE[X] = \mu
  8. 伽马分布 Gamma(α,β\alpha, \beta)E[X]=αβE[X] = \frac{\alpha}{\beta}

这些分布的期望值常在应用中直接引用,避免了重新积分的繁琐。

条件期望

定义

给定事件 AAP(A)>0P(A) > 0,随机变量 XXAA 下的条件期望 (Conditional Expectation) 定义为:

E[XA]=E[X1A]P(A)E[X \mid A] = \frac{E[X \cdot \mathbf{1}_A]}{P(A)}

更一般地,给定另一个随机变量 YYE[XY]E[X \mid Y]YY 的函数,且满足:对于所有可测函数 hh,有 E[E[XY]h(Y)]=E[Xh(Y)]E[E[X \mid Y] \cdot h(Y)] = E[X \cdot h(Y)]

全期望公式

全期望公式 (Law of Total Expectation / Law of Iterated Expectations) 将条件期望与无条件期望紧密联系:

E[X]=E[E[XY]]E[X] = E[E[X \mid Y]]

这一公式在分层分析中是极为实用的工具:可以先在每一层内求均值,再对不同层的均值进行加权平均。

与方差的关系

方差同样满足条件分解:

Var(X)=E[Var(XY)]+Var(E[XY])\text{Var}(X) = E[\text{Var}(X \mid Y)] + \text{Var}(E[X \mid Y])

即总方差等于条件方差的期望与条件期望的方差之和。

大数定律

期望值的概念与大数定律 (Law of Large Numbers) 密不可分。设 X1,X2,,XnX_1, X_2, \ldots, X_n 为独立同分布随机变量,且 E[Xi]=μE[X_i] = \mu,则:

  • 弱大数定律:样本均值 Xˉn=1ni=1nXi\bar{X}_n = \frac{1}{n}\sum_{i=1}^{n} X_i 依概率收敛于 μ\mu: \[ \bar{X}_n \xrightarrow{P} \mu \]
  • 强大数定律:样本均值几乎必然收敛于 μ\mu: \[ \bar{X}_n \xrightarrow{a.s.} \mu \]

大数定律为"频率趋近于概率"这一直观理解提供了严格的数学基础,也是蒙特卡洛方法和统计推断的基石。

经济学与决策中的应用

期望效用理论

决策论与经济学中,期望值的思想延伸为期望效用 (Expected Utility)。当决策者面临不确定性时,如果其结果可以用效用函数 u()u(\cdot) 度量,则决策者选择最大化期望效用而非期望货币价值的行为:

maxaAE[u(W(a))]\max_{a \in \mathcal{A}} E[u(W(a))]

其中 A\mathcal{A} 为可选行动集合,W(a)W(a) 为采取行动 aa 后的财富水平。

公平博弈与风险态度

若一场博弈满足 E[收益]=0E[\text{收益}] = 0,则称为公平博弈 (Fair Game)。然而,现实中大多数决策者表现出风险厌恶 (Risk Aversion),即他们拒绝公平博弈,这等价于效用函数为严格凹函数:u(x)<0u''(x) < 0。詹森不等式给出:

E[u(W)]u(E[W])E[u(W)] \leq u(E[W])

这表明风险厌恶者偏好确定性的期望财富,而非具有相同期望值的不确定财富。

圣彼得堡悖论

圣彼得堡悖论 (St. Petersburg Paradox) 是期望值概念的经典悖论:考虑一个博弈——反复抛一枚公平硬币直到出现正面;若正面首次出现在第 nn 次抛掷,则支付 2n2^n 元。该博弈的期望收益为:

E[W]=n=12n12n=n=11=E[W] = \sum_{n=1}^{\infty} 2^n \cdot \frac{1}{2^n} = \sum_{n=1}^{\infty} 1 = \infty

尽管理论期望值为无穷大,现实中几乎没有人愿意支付超过数十元来参与这场博弈。这一悖论推动了期望效用理论的发展,表明人们在决策中最大化的是效用而非货币价值。

注意事项与常见误区

  1. 期望值未必是可能取值:一枚公平骰子掷出点数的期望值为 3.5,但 3.5 并非骰子的任一可能面值。期望值不必然是样本空间中的元素。
  2. 期望值的存在性:并非所有分布都具有有限的期望值。柯西分布 (Cauchy Distribution) 即是一个著名的反例:其密度函数为 f(x)=[π(1+x2)]1f(x) = [\pi(1+x^2)]^{-1},积分 xf(x)dx\int_{-\infty}^{\infty} |x| f(x) dx 发散,因此期望值不存在。
  3. 期望值不等于"最可能值":在偏态分布中,期望值、中位数众数三者通常不同。例如对于对数正态分布 lnN(μ,σ2)\ln\mathcal{N}(\mu, \sigma^2),期望值为 eμ+σ2/2e^{\mu + \sigma^2/2},而众数为 eμσ2e^{\mu - \sigma^2}
  4. 线性性不要求独立:期望值的线性性 E[aX+bY]=aE[X]+bE[Y]E[aX + bY] = aE[X] + bE[Y] 对任意随机变量均成立,无论它们是否独立或相关。这一性质使期望值在理论推导中比方差中位数更方便。
  5. 与样本均值的区别:期望值是理论分布的特征参数,而样本均值是基于有限数据的统计量。样本均值是期望值的无偏估计量,但两者在概念上有本质区别。