克拉默-拉奥下界 (Cramér-Rao Lower Bound)
克拉默-拉奥下界 (Cramér-Rao Lower Bound, CRLB)是参数估计 理论中最基本的不等式之一,由瑞典统计学家 Harald Cramér(1946)和印度统计学家 C. R. Rao(1945)独立证明。CRLB 给出了任意无偏估计量方差所能达到的理论下界——当且仅当估计量是充分统计量的函数且满足特定正则条件时,该下界才是紧的。简而言之,CRLB 回答了这样一个根本性问题:「在给定的统计模型与数据下,我们最多能把一个未知参数估计得多精确?」
形式上,设 X = ( X 1 , X 2 , … , X n ) X = (X_1, X_2, \ldots, X_n) X = ( X 1 , X 2 , … , X n ) 为来自分布 f ( x ∣ θ ) f(x \mid \theta) f ( x ∣ θ ) 的 i.i.d. 样本,其中 θ ∈ Θ ⊆ R \theta \in \Theta \subseteq \mathbb{R} θ ∈ Θ ⊆ R 为待估参数。令 θ ^ ( X ) \hat{\theta}(X) θ ^ ( X ) 为 θ \theta θ 的任意无偏估计量,即 E θ [ θ ^ ] = θ \mathbb{E}_\theta[\hat{\theta}] = \theta E θ [ θ ^ ] = θ ,则在一定的正则条件下:
Var θ ( θ ^ ) ≥ 1 I n ( θ ) = 1 n I ( θ ) \operatorname{Var}_\theta(\hat{\theta}) \geq \frac{1}{I_n(\theta)} = \frac{1}{n I(\theta)} Var θ ( θ ^ ) ≥ I n ( θ ) 1 = n I ( θ ) 1
其中 I n ( θ ) I_n(\theta) I n ( θ ) 为样本的 Fisher信息 ,I ( θ ) I(\theta) I ( θ ) 为单个观测的 Fisher 信息:
I ( θ ) = E θ [ ( ∂ ∂ θ log f ( X ∣ θ ) ) 2 ] = − E θ [ ∂ 2 ∂ θ 2 log f ( X ∣ θ ) ] I(\theta) = \mathbb{E}_\theta\left[ \left( \frac{\partial}{\partial \theta} \log f(X \mid \theta) \right)^2 \right] = -\mathbb{E}_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log f(X \mid \theta) \right] I ( θ ) = E θ [ ( ∂ θ ∂ log f ( X ∣ θ ) ) 2 ] = − E θ [ ∂ θ 2 ∂ 2 log f ( X ∣ θ ) ]
Fisher 信息量度了单个观测携带的关于 θ \theta θ 的信息:I ( θ ) I(\theta) I ( θ ) 越大,参数越容易被精确估计,下界越紧。
正则条件
CRLB 的成立需要以下正则条件(regularity conditions),这些条件保证了积分与微分次序的可交换性:
参数空间 Θ \Theta Θ 为 R \mathbb{R} R 上的开集,且分布族 { f ( x ∣ θ ) } \{f(x \mid \theta)\} { f ( x ∣ θ )} 具有共同的支撑集(support),即支撑集不依赖于 θ \theta θ 。 对于任意 x x x ,对数似然 log f ( x ∣ θ ) \log f(x \mid \theta) log f ( x ∣ θ ) 关于 θ \theta θ 可微。 似然函数的积分与微分可交换: \[ \frac{\partial}{\partial \theta} \int f(x \mid \theta) \, dx = \int \frac{\partial}{\partial \theta} f(x \mid \theta) \, dx \] Fisher 信息满足 0 < I ( θ ) < ∞ 0 < I(\theta) < \infty 0 < I ( θ ) < ∞ 。
违反支撑集不依赖于 θ \theta θ 的条件将使 CRLB 不适用。典型反例为均匀分布 X ∼ U ( 0 , θ ) X \sim U(0, \theta) X ∼ U ( 0 , θ ) :其支撑集为 [ 0 , θ ] [0, \theta] [ 0 , θ ] ,依赖于参数 θ \theta θ ,此时最大似然估计量 θ ^ = max { X i } \hat{\theta} = \max\{X_i\} θ ^ = max { X i } 的方差数量级为 O ( n − 2 ) O(n^{-2}) O ( n − 2 ) ,远低于 O ( n − 1 ) O(n^{-1}) O ( n − 1 ) 的 CRLB 速率。
证明概要
CRLB 的核心证明利用了柯西-施瓦茨不等式 (Cauchy-Schwarz Inequality)。定义得分函数(score function):
S ( θ , X ) = ∂ ∂ θ log f ( X ∣ θ ) S(\theta, X) = \frac{\partial}{\partial \theta} \log f(X \mid \theta) S ( θ , X ) = ∂ θ ∂ log f ( X ∣ θ )
在正则条件下,得分函数的期望为零:E θ [ S ( θ , X ) ] = 0 \mathbb{E}_\theta[S(\theta, X)] = 0 E θ [ S ( θ , X )] = 0 ,其方差即为 Fisher 信息:Var θ [ S ( θ , X ) ] = I ( θ ) \operatorname{Var}_\theta[S(\theta, X)] = I(\theta) Var θ [ S ( θ , X )] = I ( θ ) 。
由于 θ ^ \hat{\theta} θ ^ 是无偏的,有 E θ [ θ ^ ] = θ \mathbb{E}_\theta[\hat{\theta}] = \theta E θ [ θ ^ ] = θ 。对等式两边关于 θ \theta θ 求导,利用正则条件交换积分与微分,得:
1 = ∂ ∂ θ E θ [ θ ^ ] = ∂ ∂ θ ∫ θ ^ ( x ) f ( x ∣ θ ) d x = ∫ θ ^ ( x ) ∂ ∂ θ f ( x ∣ θ ) d x = E θ [ θ ^ ⋅ S ( θ , X ) ] 1 = \frac{\partial}{\partial \theta} \mathbb{E}_\theta[\hat{\theta}] = \frac{\partial}{\partial \theta} \int \hat{\theta}(x) f(x \mid \theta) \, dx = \int \hat{\theta}(x) \frac{\partial}{\partial \theta} f(x \mid \theta) \, dx = \mathbb{E}_\theta[\hat{\theta} \cdot S(\theta, X)] 1 = ∂ θ ∂ E θ [ θ ^ ] = ∂ θ ∂ ∫ θ ^ ( x ) f ( x ∣ θ ) d x = ∫ θ ^ ( x ) ∂ θ ∂ f ( x ∣ θ ) d x = E θ [ θ ^ ⋅ S ( θ , X )]
由此 Cov θ ( θ ^ , S ) = E θ [ θ ^ ⋅ S ] − E θ [ θ ^ ] ⋅ E θ [ S ] = 1 − θ ⋅ 0 = 1 \operatorname{Cov}_\theta(\hat{\theta}, S) = \mathbb{E}_\theta[\hat{\theta} \cdot S] - \mathbb{E}_\theta[\hat{\theta}] \cdot \mathbb{E}_\theta[S] = 1 - \theta \cdot 0 = 1 Cov θ ( θ ^ , S ) = E θ [ θ ^ ⋅ S ] − E θ [ θ ^ ] ⋅ E θ [ S ] = 1 − θ ⋅ 0 = 1 。
对 θ ^ \hat{\theta} θ ^ 与 S S S 应用柯西-施瓦茨不等式:
[ Cov θ ( θ ^ , S ) ] 2 ≤ Var θ ( θ ^ ) ⋅ Var θ ( S ) [\operatorname{Cov}_\theta(\hat{\theta}, S)]^2 \leq \operatorname{Var}_\theta(\hat{\theta}) \cdot \operatorname{Var}_\theta(S) [ Cov θ ( θ ^ , S ) ] 2 ≤ Var θ ( θ ^ ) ⋅ Var θ ( S )
代入 Cov = 1 \operatorname{Cov} = 1 Cov = 1 与 Var ( S ) = I n ( θ ) \operatorname{Var}(S) = I_n(\theta) Var ( S ) = I n ( θ ) ,即得:
Var θ ( θ ^ ) ≥ 1 I n ( θ ) \operatorname{Var}_\theta(\hat{\theta}) \geq \frac{1}{I_n(\theta)} Var θ ( θ ^ ) ≥ I n ( θ ) 1
等号成立当且仅当 θ ^ \hat{\theta} θ ^ 与 S S S 线性相关,即存在函数 k ( θ ) k(\theta) k ( θ ) 使得 S ( θ , X ) = k ( θ ) ( θ ^ − θ ) S(\theta, X) = k(\theta)(\hat{\theta} - \theta) S ( θ , X ) = k ( θ ) ( θ ^ − θ ) 。这意味着分布族属于指数族 ,且 θ ^ \hat{\theta} θ ^ 为充分统计量。
经典例子
正态分布均值的估计
设 X 1 , … , X n ∼ i.i.d. N ( μ , σ 2 ) X_1, \ldots, X_n \overset{\text{i.i.d.}}{\sim} N(\mu, \sigma^2) X 1 , … , X n ∼ i.i.d. N ( μ , σ 2 ) ,其中 σ 2 \sigma^2 σ 2 已知,μ \mu μ 为待估参数。对数似然关于 μ \mu μ 的导数为:
∂ ∂ μ log f = x − μ σ 2 , I ( μ ) = E [ ( X − μ ) 2 σ 4 ] = 1 σ 2 \frac{\partial}{\partial \mu} \log f = \frac{x - \mu}{\sigma^2}, \quad I(\mu) = \mathbb{E}\left[ \frac{(X - \mu)^2}{\sigma^4} \right] = \frac{1}{\sigma^2} ∂ μ ∂ log f = σ 2 x − μ , I ( μ ) = E [ σ 4 ( X − μ ) 2 ] = σ 2 1
样本均值 X ˉ \bar{X} X ˉ 是 μ \mu μ 的无偏估计,其方差为 Var ( X ˉ ) = σ 2 / n = 1 / I n ( μ ) \operatorname{Var}(\bar{X}) = \sigma^2 / n = 1 / I_n(\mu) Var ( X ˉ ) = σ 2 / n = 1/ I n ( μ ) ,恰好达到 CRLB。因此 X ˉ \bar{X} X ˉ 是 μ \mu μ 的有效估计量 (efficient estimator)。
Bernoulli 分布
设 X ∼ Bernoulli ( p ) X \sim \text{Bernoulli}(p) X ∼ Bernoulli ( p ) ,即 f ( x ∣ p ) = p x ( 1 − p ) 1 − x f(x \mid p) = p^x (1-p)^{1-x} f ( x ∣ p ) = p x ( 1 − p ) 1 − x ,x ∈ { 0 , 1 } x \in \{0, 1\} x ∈ { 0 , 1 } 。Fisher 信息为:
I ( p ) = 1 p ( 1 − p ) I(p) = \frac{1}{p(1-p)} I ( p ) = p ( 1 − p ) 1
对于 n n n 次独立试验,样本比例 p ^ = ∑ X i / n \hat{p} = \sum X_i / n p ^ = ∑ X i / n 的方差为:
Var ( p ^ ) = p ( 1 − p ) n = 1 I n ( p ) \operatorname{Var}(\hat{p}) = \frac{p(1-p)}{n} = \frac{1}{I_n(p)} Var ( p ^ ) = n p ( 1 − p ) = I n ( p ) 1
再次达到 CRLB,p ^ \hat{p} p ^ 为有效估计量。注意当 p → 0 p \to 0 p → 0 或 p → 1 p \to 1 p → 1 时,I ( p ) → ∞ I(p) \to \infty I ( p ) → ∞ ,下界趋近于零——极端概率反而更容易被精确估计。
多参数情形
当 θ = ( θ 1 , … , θ k ) ⊤ \boldsymbol{\theta} = (\theta_1, \ldots, \theta_k)^\top θ = ( θ 1 , … , θ k ) ⊤ 为向量参数时,CRLB 推广为矩阵形式。定义 Fisher 信息矩阵 I ( θ ) \mathbf{I}(\boldsymbol{\theta}) I ( θ ) ,其第 ( i , j ) (i, j) ( i , j ) 个元素为:
[\mathbf{I}(\boldsymbol{\theta})]_{ij} = \mathbb{E}_\boldsymbol{\theta}\left[ \frac{\partial \log f}{\partial \theta_i} \cdot \frac{\partial \log f}{\partial \theta_j} \right] = -\mathbb{E}_\boldsymbol{\theta}\left[ \frac{\partial^2 \log f}{\partial \theta_i \partial \theta_j} \right]
则对于 θ \boldsymbol{\theta} θ 的任意无偏估计量 θ ^ \hat{\boldsymbol{\theta}} θ ^ ,其协方差矩阵满足(以 Löwner 偏序):
\operatorname{Cov}_\boldsymbol{\theta}(\hat{\boldsymbol{\theta}}) \succeq \mathbf{I}(\boldsymbol{\theta})^{-1}
即 Cov ( θ ^ ) − I ( θ ) − 1 \operatorname{Cov}(\hat{\boldsymbol{\theta}}) - \mathbf{I}(\boldsymbol{\theta})^{-1} Cov ( θ ^ ) − I ( θ ) − 1 为半正定矩阵。特别地,对任意线性组合 a ⊤ θ \mathbf{a}^\top \boldsymbol{\theta} a ⊤ θ ,有:
\operatorname{Var}_\boldsymbol{\theta}(\mathbf{a}^\top \hat{\boldsymbol{\theta}}) \geq \mathbf{a}^\top \mathbf{I}(\boldsymbol{\theta})^{-1} \mathbf{a}
这一推广在计量经济学 中至关重要——例如在线性回归模型 Y = X β + ε Y = X\beta + \varepsilon Y = Xβ + ε 中,OLS 估计量 β ^ OLS \hat{\beta}_{\text{OLS}} β ^ OLS 在高斯-马尔可夫定理 下是最优线性无偏估计量(BLUE),但其方差 σ 2 ( X ⊤ X ) − 1 \sigma^2 (X^\top X)^{-1} σ 2 ( X ⊤ X ) − 1 是否达到 CRLB,则取决于误差项 ε \varepsilon ε 是否服从正态分布。
与最大似然估计的关系
最大似然估计量(MLE)θ ^ MLE \hat{\theta}_{\text{MLE}} θ ^ MLE 在大样本下具有渐近正态性与渐近有效性:
n ( θ ^ MLE − θ ) → d N ( 0 , I ( θ ) − 1 ) \sqrt{n} (\hat{\theta}_{\text{MLE}} - \theta) \xrightarrow{d} N(0, I(\theta)^{-1}) n ( θ ^ MLE − θ ) d N ( 0 , I ( θ ) − 1 )
即 MLE 渐近地达到 CRLB。这是 MLE 在参数估计问题中具有核心地位的根本原因之一。然而,在有限样本下,MLE 通常并不恰好达到 CRLB(正态均值等指数族中的参数除外),且可能存在偏差——偏差的存在使得无偏 CRLB 不再直接适用。对于有偏估计量,需借助 Bhattacharyya 下界或采用信息不等式的一般化形式。
在计量经济学中的应用
CRLB 是渐进理论 中效率比较的基准工具。在工具变量(IV)估计中,当存在多个有效工具变量时,两阶段最小二乘(2SLS)估计量并非在所有 IV 估计量中方差最小;有限信息最大似然法 (LIML)可渐近达到 CRLB,而 2SLS 在过度识别情形下通常不能。同理,在广义矩估计 (GMM)框架中,基于最优权重矩阵的 GMM 估计量(Hansen, 1982)在给定的矩条件下渐近达到 CRLB,这也是「最优 GMM」名称的由来。
此外,CRLB 还被用于实验设计 中:给定 Fisher 信息的表达式,研究者可通过选择设计变量 x x x 的分布来最大化 I ( θ ) I(\theta) I ( θ ) ,从而最小化估计方差——此即最优实验设计(optimal design)的基本原理。
局限与推广
CRLB 的主要局限在于:(1)仅适用于无偏估计量,对于有偏估计量需要修正形式;(2)对正则条件的依赖较强,在非正则问题中下界不可达;(3)CRLB 仅给出方差下界,而未说明该下界是否可被任何估计量达到。
重要的推广包括:Bhattacharyya 下界(利用得分函数的高阶导数给出更紧的下界,适用于 MLE 等有偏估计量)、Chapman-Robbins 不等式 (不依赖正则条件,仅利用分布之差)、以及 van Trees 不等式(贝叶斯版本的 CRLB,将参数视为随机变量并纳入先验信息)。在当代高维统计 与机器学习 中,CRLB 的思想也被推广至非参数模型与稀疏估计的 minimax 下界分析,成为统计最优性理论的推理基石。
Cramér 与 Rao 的这项工作以简洁的不等式形式,精确地刻画了数据、模型与估计精度之间的内在制约关系,是统计学从描述走向推断的标志性成就之一。