ARTICLE

期望

期望 (Expectation) 期望 (Expectation),也称为 期望值 (Expected Value)、均值 (Mean) 或 一阶矩 (First Moment),是概率论和统计学中的一个基本且至关重要的概念。它描述了一个随机变量取值的“平均”大小。从直观上讲,期望是所有可能结果的加权平均值,其中每个结果的权重是其发生的概率。 如果一个随机试

浏览 53 更新 2025-10-25

期望 (Expectation)

期望 (Expectation),也称为 期望值 (Expected Value)、均值 (Mean) 或 一阶矩 (First Moment),是概率论统计学中的一个基本且至关重要的概念。它描述了一个随机变量取值的“平均”大小。从直观上讲,期望是所有可能结果的加权平均值,其中每个结果的权重是其发生的概率

如果一个随机试验可以被无限次重复,那么所有试验结果的算术平均值将会收敛于该随机变量的期望。这个思想是大数定律的核心。期望用符号 E[X] E[X] E[X] \mathbb{E}[X] 表示,其中 X X 是一个随机变量。

形式化定义

期望的计算方式取决于随机变量是离散的还是连续的。

一、离散随机变量 (Discrete Random Variable)

对于一个离散随机变量 X X ,它可以取一系列有限或可数无限的值 {x1,x2,x3,} \{x_1, x_2, x_3, \dots\} 。其对应的概率由概率质量函数 (Probability Mass Function, PMF) p(xi)=P(X=xi) p(x_i) = P(X=x_i) 给出。

X X 的期望定义为:

E[X]=ixip(xi)E[X] = \sum_{i} x_i p(x_i)

这个公式的含义是:将每个可能的取值 xi x_i 与其发生的概率 p(xi) p(x_i) 相乘,然后将所有这些乘积相加。

示例:掷一个公平的六面骰子 假设随机变量 X X 代表骰子掷出的点数。

  • 可能的取值 (样本空间):{1,2,3,4,5,6} \{1, 2, 3, 4, 5, 6\}
  • 每个取值的概率:由于骰子是公平的,每个点数出现的概率都是 16 \frac{1}{6} 。所以 p(1)=p(2)==p(6)=16 p(1)=p(2)=\dots=p(6)=\frac{1}{6}

根据定义,其期望为:

E[X]=116+216+316+416+516+616=1+2+3+4+5+66=216=3.5E[X] = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = 3.5

解释:期望值 3.5 并不代表某一次投掷可能出现的结果(因为骰子没有3.5这个点数),而是如果我们进行大量投掷后,所有结果的平均值将趋近于 3.5。它代表了该随机变量分布的中心趋势

二、连续随机变量 (Continuous Random Variable)

对于一个连续随机变量 X X ,其行为由概率密度函数 (Probability Density Function, PDF) f(x) f(x) 描述。f(x) f(x) 本身不是概率,但其在某个区间上的积分给出了变量落入该区间的概率。

X X 的期望定义为:

E[X]=xf(x)dxE[X] = \int_{-\infty}^{\infty} x f(x) \,dx

这个积分可以被看作是离散情况下求和的连续模拟。它将每一个可能的取值 x x 与其“密度”f(x) f(x) 相乘,然后在整个实数轴上进行积分。

示例:均匀分布 假设随机变量 X X 服从区间 [a,b] [a, b] 上的均匀分布。

  • 其概率密度函数为:f(x)=1ba f(x) = \frac{1}{b-a} 对于 axb a \le x \le b ,在其他地方 f(x)=0 f(x) = 0

根据定义,其期望为:

E[X]=abx1badx=1ba[x22]ab=1ba(b2a22)=(ba)(b+a)2(ba)=a+b2E[X] = \int_{a}^{b} x \cdot \frac{1}{b-a} \,dx = \frac{1}{b-a} \left[ \frac{x^2}{2} \right]_{a}^{b} = \frac{1}{b-a} \left( \frac{b^2 - a^2}{2} \right) = \frac{(b-a)(b+a)}{2(b-a)} = \frac{a+b}{2}

解释:均匀分布的期望是其所在区间的中点,这与我们的直觉完全相符。

期望的性质

期望具有一些非常重要的数学性质,这些性质极大地简化了计算和理论推导。

  1. 常数的期望:一个常数 c c 的期望就是它本身。
E[c]=cE[c] = c

这是因为常数可以被看作是一个以概率 1 取值 c c 的随机变量。

  1. 线性性质 (Linearity of Expectation):这是期望最重要的性质。对于任意两个随机变量 X X Y Y (无论它们是否独立随机变量)以及任意常数 a a b b
E[aX+bY]=aE[X]+bE[Y]E[aX + bY] = aE[X] + bE[Y]

这个性质可以推广到任意多个随机变量的线性组合。它意味着“和的期望等于期望的和”,并且可以提出常数因子。这一性质的强大之处在于它对随机变量之间的相关性没有要求。

  1. 乘法性质
  • 一般情况:通常情况下,E[XY]E[X]E[Y] E[XY] \neq E[X]E[Y] 。这两个量之间的差值被定义为 X X Y Y 协方差Cov(X,Y)=E[XY]E[X]E[Y] Cov(X, Y) = E[XY] - E[X]E[Y]
  • 独立情况:如果 X X Y Y 独立随机变量,那么它们的乘积的期望等于它们各自期望的乘积。
E[XY]=E[X]E[Y](当 X,Y 独立时)E[XY] = E[X]E[Y] \quad (\text{当 } X, Y \text{ 独立时})
  1. 函数的期望 (LOTUS):如果我们关心一个随机变量 X X 的某个函数 g(X) g(X) 的期望,我们不需要先求出 Y=g(X) Y=g(X) 的分布。我们可以使用所谓的 “无意识统计学家定律” (Law of the Unconscious Statistician) 直接计算:
  • 离散情况E[g(X)]=ig(xi)p(xi) E[g(X)] = \sum_i g(x_i) p(x_i)
  • 连续情况E[g(X)]=g(x)f(x)dx E[g(X)] = \int_{-\infty}^{\infty} g(x) f(x) \,dx

例如,这个定律是计算方差 Var(X)=E[(XE[X])2] Var(X) = E[(X - E[X])^2] 的理论基础。

应用与诠释

  1. 物理学类比:期望可以被看作是概率分布的 质心 (Center of Mass)。如果将实数轴看作一根杆,在每个点 xi x_i 处放置质量为 p(xi) p(x_i) 的物体,那么这根杆的平衡点就是期望 E[X] E[X]
  1. 决策论:在面临不确定性时,期望是做出理性决策的基础。例如,在投资中,一个理性的投资者可能会选择能够带来最高 期望回报 (Expected Return) 的资产。在博弈中,期望收益被用来评估一个赌局是否“有利可图”。如果一个游戏的期望收益为正,则长期参与是划算的。
  1. 金融学:资产的期望回报是现代投资组合理论资本资产定价模型 (CAPM)等核心金融模型的基石。它量化了投资者对一项资产未来表现的平均预期。
  1. 统计推断:期望是定义其他重要统计量(如方差协方差偏度峰度)的基础。例如,方差 Var(X) Var(X) 衡量了数据点围绕其期望波动的程度。

延伸概念

条件期望 (Conditional Expectation)

条件期望 E[YX=x] E[Y|X=x] 表示在已知随机变量 X X 取值为 x x 的条件下,随机变量 Y Y 的期望。这是一个非常强大的工具,允许我们根据部分信息来更新我们的预测。

一个重要的相关定律是 全期望公式 (Law of Total Expectation),也称作迭代期望定律:

E[Y]=E[E[YX]]E[Y] = E[E[Y|X]]

它表明,一个变量的无条件期望等于其对另一个变量的条件期望的期望值。这在处理复杂模型时非常有用。

期望的存在性

并非所有随机变量都有一个明确定义的期望。对于期望存在(即求和或积分收敛)的条件是 绝对收敛

  • 离散情况: ixip(xi)< \sum_i |x_i| p(x_i) < \infty
  • 连续情况: xf(x)dx< \int_{-\infty}^{\infty} |x| f(x) \,dx < \infty

一个著名的反例是柯西分布 (Cauchy Distribution)。由于其“重尾”特性(即远离中心的值仍有不可忽略的概率密度),其计算期望的积分不收敛,因此柯西分布没有定义期望值。这提醒我们,虽然期望是一个普遍的概念,但其应用依赖于底层的数学条件。