知经 KNOWECON · 卓越的经济金融统计数学学习平台

Rao-Blackwell定理

# Rao-Blackwell 定理 (Rao-Blackwell Theorem)

Rao-Blackwell 定理 是 {{{数理统计}}} 和 {{{估计理论}}} (Estimation Theory) 中的一个基本而强大的结果。它提供了一种系统性的方法,用于将一个已有的 {{{无偏估计量}}} 改进为一个方差更小(或相等)的新无偏估计量,从而获得一个“更优”的估计。该定理的核心思想是利用 {{{充分统计量}}} (Sufficient Statistic) 所包含的关于未知参数的全部信息,通过取条件期望来消除估计量中与参数无关的随机性。

该定理由印度裔美国统计学家 C.R. Rao 和英国统计学家 David Blackwell 独立提出。

## 定理的正式表述

假设 $\mathbf{X} = (X_1, X_2, \ldots, X_n)$ 是一个来自某概率分布的随机样本,该分布依赖于未知参数 $\theta$。

令 $W(\mathbf{X})$ 是参数 $\theta$ 的一个 {{{无偏估计量}}},即 $E[W(\mathbf{X})] = \theta$,并且其 {{{方差}}} $Var(W(\mathbf{X}))$ 有限。

令 $T(\mathbf{X})$ 是参数 $\theta$ 的一个 {{{充分统计量}}}。

我们定义一个新的估计量 $W^*$,它是 $W$ 关于充分统计量 $T$ 的 {{{条件期望}}}:

$$ W^*(\mathbf{X}) = E[W(\mathbf{X}) | T(\mathbf{X})] $$

Rao-Blackwell 定理指出,新的估计量 $W^*$ 具有以下两个关键性质:

1. 无偏性 (Unbiasedness):$W^*$ 仍然是 $\theta$ 的一个无偏估计量。 $$ E[W^*(\mathbf{X})] = \theta $$ 2. 方差减小 (Variance Reduction):$W^*$ 的方差不大于原始估计量 $W$ 的方差。 $$ Var(W^*(\mathbf{X})) \le Var(W(\mathbf{X})) \quad \text{对于所有的 } \theta $$

更进一步,当且仅当 $W$ 本身就是 $T$ 的一个函数时(即 $W$ 的值完全由 $T$ 决定),等号成立。在其他所有情况下,不等式是严格的 ($Var(W^*) < Var(W)$),这意味着 $W^*$ 是一个严格更优的估计量。

### 理解 $W^* = E[W|T]$

重要的是要理解 $E[W|T]$ 本身是一个 {{{随机变量}}}。对于一个具体的样本观测值 $\mathbf{x}$,我们可以计算出其充分统计量的值 $t=T(\mathbf{x})$。然后,我们计算在给定 $T=t$ 这个条件下 $W$ 的期望值。这个期望值是一个依赖于 $t$ 的函数。因此,新的估计量 $W^*$ 是一个以充分统计量 $T(\mathbf{X})$ 为自变量的函数,其随机性完全来自于 $T(\mathbf{X})$。这个过程通常被称为 Rao-Blackwell化 (Rao-Blackwellization)

## 定理的证明

Rao-Blackwell 定理的证明精妙地运用了 {{{期望}}} 和 {{{方差}}} 的基本性质,特别是 {{{全期望定律}}} (Law of Total Expectation) 和 {{{全方差定律}}} (Law of Total Variance)。

#### 1. 证明无偏性

根据 {{{全期望定律}}},$E[Y] = E[E[Y|Z]]$,我们令 $Y = W(\mathbf{X})$ 且 $Z = T(\mathbf{X})$。 $$ E[W^*] = E[E[W | T]] $$ 由全期望定律,我们直接得到: $$ E[E[W | T]] = E[W] $$ 因为我们已知 $W$ 是 $\theta$ 的无偏估计量,所以 $E[W] = \theta$。因此: $$ E[W^*] = \theta $$ 这证明了 $W^*$ 同样是 $\theta$ 的无偏估计量。

#### 2. 证明方差减小

根据 {{{全方差定律}}},$Var(Y) = E[Var(Y|Z)] + Var(E[Y|Z])$,我们同样令 $Y = W(\mathbf{X})$ 且 $Z = T(\mathbf{X})$。 $$ Var(W) = E[Var(W | T)] + Var(E[W | T]) $$ 回顾我们对 $W^*$ 的定义,$W^* = E[W | T]$。将此代入上式: $$ Var(W) = E[Var(W | T)] + Var(W^*) $$ 由于 {{{方差}}} 的定义,它永远是一个非负值。因此,条件方差 $Var(W | T)$ 是一个非负的随机变量,其期望值也必然非负: $$ E[Var(W | T)] \ge 0 $$ 由此可得: $$ Var(W) \ge Var(W^*) $$ 这就证明了新估计量的方差不大于原估计量的方差。

等号成立的条件是 $E[Var(W | T)] = 0$,这等价于 $Var(W|T) = 0$ (几乎必然)。这意味着在给定充分统计量 $T$ 的值之后,$W$ 不再有任何随机性,即 $W$ 是 $T$ 的一个函数。

## 应用Rao-Blackwell定理:一个实例

让我们通过一个经典的例子来展示该定理的威力。

问题:假设 $X_1, X_2, \ldots, X_n$ 是来自 {{{泊松分布}}} $Poisson(\lambda)$ 的一组独立同分布(i.i.d.)样本。我们希望估计参数 $\theta = P(X_1 \le 1) = e^{-\lambda}(1+\lambda)$。

#### 第1步:寻找一个简单的无偏估计量

我们可以构造一个非常简单(但可能效率不高)的估计量。考虑 индикаторная функция (indicator function) $W(\mathbf{X}) = I(X_1 \le 1)$。 这个估计量的 {{{期望}}} 是: $$ E[W] = E[I(X_1 \le 1)] = 1 \cdot P(X_1 \le 1) + 0 \cdot P(X_1 > 1) = P(X_1 \le 1) = \theta $$ 因此,$W=I(X_1 \le 1)$ 是 $\theta$ 的一个无偏估计量。请注意,这个估计量非常粗糙,因为它只使用了样本中的第一个观测值。

#### 第2步:找到一个充分统计量

对于泊松分布族,样本总和 $T(\mathbf{X}) = \sum_{i=1}^n X_i$ 是参数 $\lambda$ 的一个 {{{充分统计量}}}。我们知道 $T$ 服从泊松分布 $Poisson(n\lambda)$。

#### 第3步:计算条件期望

现在我们应用 Rao-Blackwell 定理,计算新的估计量 $W^* = E[W | T=t]$。 $$ W^* = E[I(X_1 \le 1) | \sum_{i=1}^n X_i = t] = P(X_1 \le 1 | \sum_{i=1}^n X_i = t) $$ $$ P(X_1 \le 1 | T=t) = P(X_1=0 | T=t) + P(X_1=1 | T=t) $$ 我们可以利用 {{{条件概率}}} 和 {{{二项分布}}} 的知识来计算。已知 $\sum X_i = t$,则单个 $X_i$ 的条件分布服从参数为 $t$ 和 $1/n$ 的二项分布 $B(t, 1/n)$。 直观上,这表示如果知道 $n$ 次观测的总和是 $t$,那么这 $t$ 个“事件”中的任何一个发生在第一次观测 ($X_1$) 上的概率是 $1/n$。

所以,给定 $T=t$,$X_1$ 的条件分布为 $X_1 | T=t \sim B(t, 1/n)$。 因此: * $P(X_1=0 | T=t) = \binom{t}{0} (\frac{1}{n})^0 (1-\frac{1}{n})^{t-0} = (1-\frac{1}{n})^t$ * $P(X_1=1 | T=t) = \binom{t}{1} (\frac{1}{n})^1 (1-\frac{1}{n})^{t-1} = t \cdot \frac{1}{n} (1-\frac{1}{n})^{t-1}$

将两者相加,我们得到新的估计量 $W^*$ 关于 $t$ 的函数: $$ W^*(t) = (1-\frac{1}{n})^t + \frac{t}{n}(1-\frac{1}{n})^{t-1} $$

#### 第4步:得到改进后的估计量

将 $t$ 替换回随机变量 $T = \sum X_i$,我们得到最终的 Rao-Blackwell 估计量: $$ W^*(\mathbf{X}) = \left(1-\frac{1}{n}\right)^{\sum X_i} + \frac{\sum X_i}{n}\left(1-\frac{1}{n}\right)^{\sum X_i - 1} $$ 根据 Rao-Blackwell 定理,这个新的估计量 $W^*$ 仍然是 $\theta = e^{-\lambda}(1+\lambda)$ 的无偏估计量,并且其方差小于或等于我们最初构造的简单估计量 $W = I(X_1 \le 1)$。由于 $W$ 不是 $T$ 的函数,这里的方差是严格更小的。

## 意义与引申

* 构造性方法:Rao-Blackwell 定理不仅仅是一个理论结果,它提供了一个将“坏”估计量改进为“好”估计量的具体操作路径。 * 与UMVUE的联系:该定理是寻找 {{{一致最小方差无偏估计量}}} (Uniformly Minimum Variance Unbiased Estimator, UMVUE) 的关键。UMVUE 是在所有无偏估计量中,对所有可能的参数值 $\theta$ 都具有最小方差的估计量。 * {{{Lehmann–Scheffé定理}}}:此定理是 Rao-Blackwell 定理的自然延伸。它指出,如果一个充分统计量 $T$ 是 {{{完备的}}} (Complete),那么任何基于 $T$ 的无偏估计量都是唯一的 UMVUE。因此,通过对任何一个无偏估计量进行 Rao-Blackwell化,如果所用的充分统计量是完备的,那么得到的结果就是我们能找到的“最优”无偏估计量。 * 局限性: 1. 寻找一个充分统计量是前提,但这并非总是易事。 2. 计算条件期望 $E[W|T]$ 在数学上可能非常复杂,甚至无法得到解析解。 3. 该定理的优化是在 {{{无偏估计量}}} 的框架下进行的。在某些情况下,一个有轻微偏误但方差极小的 {{{有偏估计量}}} (Biased Estimator) 可能具有更低的 {{{均方误差}}} (Mean Squared Error, MSE),这涉及到 {{{偏差-方差权衡}}} (Bias-variance tradeoff)。