ARTICLE

克拉默-拉奥下界 (Cramér-Rao Lower Bound)

克拉默-拉奥下界 (Cramér-Rao Lower Bound) 克拉默-拉奥下界(Cramér-Rao Lower Bound, CRLB)是参数估计理论中最基本的不等式之一,由瑞典统计学家 Harald Cramér(1946)和印度统计学家 C. R. Rao(1945)独立证明。CRLB 给出了任意无偏估计量方差所能达到的理论下界——当且仅当估计量

浏览 0 更新 2025-10-26

克拉默-拉奥下界 (Cramér-Rao Lower Bound)

克拉默-拉奥下界(Cramér-Rao Lower Bound, CRLB)是参数估计理论中最基本的不等式之一,由瑞典统计学家 Harald Cramér(1946)和印度统计学家 C. R. Rao(1945)独立证明。CRLB 给出了任意无偏估计量方差所能达到的理论下界——当且仅当估计量是充分统计量的函数且满足特定正则条件时,该下界才是紧的。简而言之,CRLB 回答了这样一个根本性问题:「在给定的统计模型与数据下,我们最多能把一个未知参数估计得多精确?」

形式上,设 X=(X1,X2,,Xn)X = (X_1, X_2, \ldots, X_n) 为来自分布 f(xθ)f(x \mid \theta) 的 i.i.d. 样本,其中 θΘR\theta \in \Theta \subseteq \mathbb{R} 为待估参数。令 θ^(X)\hat{\theta}(X)θ\theta 的任意无偏估计量,即 Eθ[θ^]=θ\mathbb{E}_\theta[\hat{\theta}] = \theta,则在一定的正则条件下:

Varθ(θ^)1In(θ)=1nI(θ)\operatorname{Var}_\theta(\hat{\theta}) \geq \frac{1}{I_n(\theta)} = \frac{1}{n I(\theta)}

其中 In(θ)I_n(\theta) 为样本的 Fisher信息I(θ)I(\theta) 为单个观测的 Fisher 信息:

I(θ)=Eθ[(θlogf(Xθ))2]=Eθ[2θ2logf(Xθ)]I(\theta) = \mathbb{E}_\theta\left[ \left( \frac{\partial}{\partial \theta} \log f(X \mid \theta) \right)^2 \right] = -\mathbb{E}_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log f(X \mid \theta) \right]

Fisher 信息量度了单个观测携带的关于 θ\theta 的信息:I(θ)I(\theta) 越大,参数越容易被精确估计,下界越紧。

正则条件

CRLB 的成立需要以下正则条件(regularity conditions),这些条件保证了积分与微分次序的可交换性:

  1. 参数空间 Θ\ThetaR\mathbb{R} 上的开集,且分布族 {f(xθ)}\{f(x \mid \theta)\} 具有共同的支撑集(support),即支撑集不依赖于 θ\theta
  2. 对于任意 xx,对数似然 logf(xθ)\log f(x \mid \theta) 关于 θ\theta 可微。
  3. 似然函数的积分与微分可交换: \[ \frac{\partial}{\partial \theta} \int f(x \mid \theta) \, dx = \int \frac{\partial}{\partial \theta} f(x \mid \theta) \, dx \]
  4. Fisher 信息满足 0<I(θ)<0 < I(\theta) < \infty

违反支撑集不依赖于 θ\theta 的条件将使 CRLB 不适用。典型反例为均匀分布 XU(0,θ)X \sim U(0, \theta):其支撑集为 [0,θ][0, \theta],依赖于参数 θ\theta,此时最大似然估计量 θ^=max{Xi}\hat{\theta} = \max\{X_i\} 的方差数量级为 O(n2)O(n^{-2}),远低于 O(n1)O(n^{-1}) 的 CRLB 速率。

证明概要

CRLB 的核心证明利用了柯西-施瓦茨不等式(Cauchy-Schwarz Inequality)。定义得分函数(score function):

S(θ,X)=θlogf(Xθ)S(\theta, X) = \frac{\partial}{\partial \theta} \log f(X \mid \theta)

在正则条件下,得分函数的期望为零:Eθ[S(θ,X)]=0\mathbb{E}_\theta[S(\theta, X)] = 0,其方差即为 Fisher 信息:Varθ[S(θ,X)]=I(θ)\operatorname{Var}_\theta[S(\theta, X)] = I(\theta)

由于 θ^\hat{\theta} 是无偏的,有 Eθ[θ^]=θ\mathbb{E}_\theta[\hat{\theta}] = \theta。对等式两边关于 θ\theta 求导,利用正则条件交换积分与微分,得:

1=θEθ[θ^]=θθ^(x)f(xθ)dx=θ^(x)θf(xθ)dx=Eθ[θ^S(θ,X)]1 = \frac{\partial}{\partial \theta} \mathbb{E}_\theta[\hat{\theta}] = \frac{\partial}{\partial \theta} \int \hat{\theta}(x) f(x \mid \theta) \, dx = \int \hat{\theta}(x) \frac{\partial}{\partial \theta} f(x \mid \theta) \, dx = \mathbb{E}_\theta[\hat{\theta} \cdot S(\theta, X)]

由此 Covθ(θ^,S)=Eθ[θ^S]Eθ[θ^]Eθ[S]=1θ0=1\operatorname{Cov}_\theta(\hat{\theta}, S) = \mathbb{E}_\theta[\hat{\theta} \cdot S] - \mathbb{E}_\theta[\hat{\theta}] \cdot \mathbb{E}_\theta[S] = 1 - \theta \cdot 0 = 1

θ^\hat{\theta}SS 应用柯西-施瓦茨不等式:

[Covθ(θ^,S)]2Varθ(θ^)Varθ(S)[\operatorname{Cov}_\theta(\hat{\theta}, S)]^2 \leq \operatorname{Var}_\theta(\hat{\theta}) \cdot \operatorname{Var}_\theta(S)

代入 Cov=1\operatorname{Cov} = 1Var(S)=In(θ)\operatorname{Var}(S) = I_n(\theta),即得:

Varθ(θ^)1In(θ)\operatorname{Var}_\theta(\hat{\theta}) \geq \frac{1}{I_n(\theta)}

等号成立当且仅当 θ^\hat{\theta}SS 线性相关,即存在函数 k(θ)k(\theta) 使得 S(θ,X)=k(θ)(θ^θ)S(\theta, X) = k(\theta)(\hat{\theta} - \theta)。这意味着分布族属于指数族,且 θ^\hat{\theta} 为充分统计量。

经典例子

正态分布均值的估计

X1,,Xni.i.d.N(μ,σ2)X_1, \ldots, X_n \overset{\text{i.i.d.}}{\sim} N(\mu, \sigma^2),其中 σ2\sigma^2 已知,μ\mu 为待估参数。对数似然关于 μ\mu 的导数为:

μlogf=xμσ2,I(μ)=E[(Xμ)2σ4]=1σ2\frac{\partial}{\partial \mu} \log f = \frac{x - \mu}{\sigma^2}, \quad I(\mu) = \mathbb{E}\left[ \frac{(X - \mu)^2}{\sigma^4} \right] = \frac{1}{\sigma^2}

样本均值 Xˉ\bar{X}μ\mu 的无偏估计,其方差为 Var(Xˉ)=σ2/n=1/In(μ)\operatorname{Var}(\bar{X}) = \sigma^2 / n = 1 / I_n(\mu),恰好达到 CRLB。因此 Xˉ\bar{X}μ\mu有效估计量(efficient estimator)。

Bernoulli 分布

XBernoulli(p)X \sim \text{Bernoulli}(p),即 f(xp)=px(1p)1xf(x \mid p) = p^x (1-p)^{1-x}x{0,1}x \in \{0, 1\}。Fisher 信息为:

I(p)=1p(1p)I(p) = \frac{1}{p(1-p)}

对于 nn 次独立试验,样本比例 p^=Xi/n\hat{p} = \sum X_i / n 的方差为:

Var(p^)=p(1p)n=1In(p)\operatorname{Var}(\hat{p}) = \frac{p(1-p)}{n} = \frac{1}{I_n(p)}

再次达到 CRLB,p^\hat{p} 为有效估计量。注意当 p0p \to 0p1p \to 1 时,I(p)I(p) \to \infty,下界趋近于零——极端概率反而更容易被精确估计。

多参数情形

θ=(θ1,,θk)\boldsymbol{\theta} = (\theta_1, \ldots, \theta_k)^\top 为向量参数时,CRLB 推广为矩阵形式。定义 Fisher 信息矩阵 I(θ)\mathbf{I}(\boldsymbol{\theta}),其第 (i,j)(i, j) 个元素为:

[\mathbf{I}(\boldsymbol{\theta})]_{ij} = \mathbb{E}_\boldsymbol{\theta}\left[ \frac{\partial \log f}{\partial \theta_i} \cdot \frac{\partial \log f}{\partial \theta_j} \right] = -\mathbb{E}_\boldsymbol{\theta}\left[ \frac{\partial^2 \log f}{\partial \theta_i \partial \theta_j} \right]

则对于 θ\boldsymbol{\theta} 的任意无偏估计量 θ^\hat{\boldsymbol{\theta}},其协方差矩阵满足(以 Löwner 偏序):

\operatorname{Cov}_\boldsymbol{\theta}(\hat{\boldsymbol{\theta}}) \succeq \mathbf{I}(\boldsymbol{\theta})^{-1}

Cov(θ^)I(θ)1\operatorname{Cov}(\hat{\boldsymbol{\theta}}) - \mathbf{I}(\boldsymbol{\theta})^{-1} 为半正定矩阵。特别地,对任意线性组合 aθ\mathbf{a}^\top \boldsymbol{\theta},有:

\operatorname{Var}_\boldsymbol{\theta}(\mathbf{a}^\top \hat{\boldsymbol{\theta}}) \geq \mathbf{a}^\top \mathbf{I}(\boldsymbol{\theta})^{-1} \mathbf{a}

这一推广在计量经济学中至关重要——例如在线性回归模型 Y=Xβ+εY = X\beta + \varepsilon 中,OLS 估计量 β^OLS\hat{\beta}_{\text{OLS}}高斯-马尔可夫定理下是最优线性无偏估计量(BLUE),但其方差 σ2(XX)1\sigma^2 (X^\top X)^{-1} 是否达到 CRLB,则取决于误差项 ε\varepsilon 是否服从正态分布。

与最大似然估计的关系

最大似然估计量(MLE)θ^MLE\hat{\theta}_{\text{MLE}} 在大样本下具有渐近正态性与渐近有效性:

n(θ^MLEθ)dN(0,I(θ)1)\sqrt{n} (\hat{\theta}_{\text{MLE}} - \theta) \xrightarrow{d} N(0, I(\theta)^{-1})

即 MLE 渐近地达到 CRLB。这是 MLE 在参数估计问题中具有核心地位的根本原因之一。然而,在有限样本下,MLE 通常并不恰好达到 CRLB(正态均值等指数族中的参数除外),且可能存在偏差——偏差的存在使得无偏 CRLB 不再直接适用。对于有偏估计量,需借助 Bhattacharyya 下界或采用信息不等式的一般化形式。

在计量经济学中的应用

CRLB 是渐进理论中效率比较的基准工具。在工具变量(IV)估计中,当存在多个有效工具变量时,两阶段最小二乘(2SLS)估计量并非在所有 IV 估计量中方差最小;有限信息最大似然法(LIML)可渐近达到 CRLB,而 2SLS 在过度识别情形下通常不能。同理,在广义矩估计(GMM)框架中,基于最优权重矩阵的 GMM 估计量(Hansen, 1982)在给定的矩条件下渐近达到 CRLB,这也是「最优 GMM」名称的由来。

此外,CRLB 还被用于实验设计中:给定 Fisher 信息的表达式,研究者可通过选择设计变量 xx 的分布来最大化 I(θ)I(\theta),从而最小化估计方差——此即最优实验设计(optimal design)的基本原理。

局限与推广

CRLB 的主要局限在于:(1)仅适用于无偏估计量,对于有偏估计量需要修正形式;(2)对正则条件的依赖较强,在非正则问题中下界不可达;(3)CRLB 仅给出方差下界,而未说明该下界是否可被任何估计量达到。

重要的推广包括:Bhattacharyya 下界(利用得分函数的高阶导数给出更紧的下界,适用于 MLE 等有偏估计量)、Chapman-Robbins 不等式(不依赖正则条件,仅利用分布之差)、以及 van Trees 不等式(贝叶斯版本的 CRLB,将参数视为随机变量并纳入先验信息)。在当代高维统计机器学习中,CRLB 的思想也被推广至非参数模型与稀疏估计的 minimax 下界分析,成为统计最优性理论的推理基石。

Cramér 与 Rao 的这项工作以简洁的不等式形式,精确地刻画了数据、模型与估计精度之间的内在制约关系,是统计学从描述走向推断的标志性成就之一。