ARTICLE

克拉美-罗下界

克拉美-罗下界 (Cramér-Rao Lower Bound) 克拉美-罗下界(Cramér-Rao Lower Bound, CRLB),又称克拉美-罗不等式,是数理统计学与估计理论中最基本的理论成果之一。该下界为任何无偏估计量的方差设定了一个不可逾越的理论下限——换言之,任何无偏估计量的精度都不可能超过由数据自身所包含信息量决定的上限。这一奠基性结果由

浏览 0 更新 2025-10-26

克拉美-罗下界 (Cramér-Rao Lower Bound)

克拉美-罗下界(Cramér-Rao Lower Bound, CRLB),又称克拉美-罗不等式,是数理统计学估计理论中最基本的理论成果之一。该下界为任何无偏估计量方差设定了一个不可逾越的理论下限——换言之,任何无偏估计量的精度都不可能超过由数据自身所包含信息量决定的上限。这一奠基性结果由瑞典数学家Harald Cramér和印度统计学家C. R. Rao于二十世纪四十年代中期独立提出,其证明依赖于柯西-施瓦茨不等式费希尔信息量的深刻联系。

核心定义与正则条件

设随机样本 X1,X2,,XnX_1, X_2, \dots, X_n 来自参数分布族 f(x;θ)f(x; \theta),其中 θΘR\theta \in \Theta \subseteq \mathbb{R} 为待估参数。令 θ^\hat{\theta}θ\theta 的任意无偏估计量,即 Eθ[θ^]=θ\mathbb{E}_{\theta}[\hat{\theta}] = \theta。在满足以下正则条件(Regularity Conditions)时,CRLB成立。

  1. 参数空间 Θ\Theta 为开集,以确保内点最优性可应用微分工具。
  2. 密度函数的支撑集(Support)不依赖于 θ\theta,即 {x:f(x;θ)>0}\{x: f(x; \theta) > 0\} 不含参数信息。这排除了均匀分布 U(0,θ)U(0, \theta) 等支撑集依赖参数的模型。
  3. 对数似然函数 (θ;x)=logf(x;θ)\ell(\theta; x) = \log f(x; \theta) 关于 θ\theta 至少二阶可微。
  4. 积分号下求导运算可交换次序,即 θf(x;θ)dx=θf(x;θ)dx\frac{\partial}{\partial \theta} \int f(x; \theta) \, dx = \int \frac{\partial}{\partial \theta} f(x; \theta) \, dx,通常由控制收敛定理保证。

在此条件下,无偏估计量 θ^\hat{\theta} 的方差满足不等式:

Varθ(θ^)1In(θ)\operatorname{Var}_{\theta}(\hat{\theta}) \geq \frac{1}{I_n(\theta)}

其中 In(θ)I_n(\theta) 为基于全部 nn 个样本的费希尔信息量(Fisher Information),有两种等价定义。其一为得分函数(Score Function)的二阶矩:

In(θ)=Eθ[(θlogf(X;θ))2]I_n(\theta) = \mathbb{E}_{\theta}\left[ \left( \frac{\partial}{\partial \theta} \log f(\mathbf{X}; \theta) \right)^2 \right]

其二(在二阶可微条件下)为对数似然二阶导期望的负值:

In(θ)=Eθ[2θ2logf(X;θ)]I_n(\theta) = -\mathbb{E}_{\theta}\left[ \frac{\partial^2}{\partial \theta^2} \log f(\mathbf{X}; \theta) \right]

对于独立同分布(i.i.d.)样本,费希尔信息具有可加性:In(θ)=nI(θ)I_n(\theta) = n \cdot I(\theta),其中 I(θ)I(\theta) 为单个观测的信息量。此时CRLB简化为 Var(θ^)1/[nI(θ)]\operatorname{Var}(\hat{\theta}) \geq 1 / [n I(\theta)],直观揭示了样本量与估计精度之间的根本关系:样本量增加一倍,方差下界减半。

有效估计量与效率

若某个无偏估计量的方差精确等于CRLB,则称该估计量为有效估计量(Efficient Estimator)。达到这一下界的充要条件为得分函数可表示为估计量与参数之差的线性函数:

θlogf(X;θ)=c(θ)(θ^θ)\frac{\partial}{\partial \theta} \log f(\mathbf{X}; \theta) = c(\theta) \big( \hat{\theta} - \theta \big)

该条件揭示了有效估计量存在的关键:概率模型必须属于特定的结构——通常对应于指数族分布(Exponential Family)的自然参数形式。典型的例子包括正态分布 N(μ,σ2)N(\mu, \sigma^2) 中样本均值 Xˉ\bar{X}μ\mu 的估计(其方差 σ2/n\sigma^2/n 恰好等于CRLB),以及伯努利分布中样本比例 p^\hat{p} 对成功概率 pp 的估计。

定义估计量的效率(Efficiency)为 e(θ^)=CRLB/Var(θ^)e(\hat{\theta}) = \text{CRLB} / \operatorname{Var}(\hat{\theta}),其取值范围为 0<e(θ^)10 < e(\hat{\theta}) \leq 1。效率越接近1,估计量越优。极大似然估计(MLE)在正则条件下具有渐近有效性:当样本量趋于无穷时,其方差趋近于CRLB,即 limne(θ^MLE)=1\lim_{n \to \infty} e(\hat{\theta}_{\text{MLE}}) = 1

多维推广与局限性

当参数为多维向量 θ=(θ1,,θk)\boldsymbol{\theta} = (\theta_1, \dots, \theta_k)^{\top} 时,CRLB推广为矩阵形式。定义费希尔信息矩阵(Fisher Information Matrix)I(θ)\mathcal{I}(\boldsymbol{\theta}),其第 (i,j)(i,j) 个元素为:

Iij(θ)=Eθ[logfθilogfθj]\mathcal{I}_{ij}(\boldsymbol{\theta}) = \mathbb{E}_{\boldsymbol{\theta}}\left[ \frac{\partial \log f}{\partial \theta_i} \cdot \frac{\partial \log f}{\partial \theta_j} \right]

则任意无偏估计量 θ^\hat{\boldsymbol{\theta}} 的协方差矩阵满足半正定不等式:

Covθ(θ^)I(θ)1\operatorname{Cov}_{\boldsymbol{\theta}}(\hat{\boldsymbol{\theta}}) \succeq \mathcal{I}(\boldsymbol{\theta})^{-1}

这意味着一维CRLB可视为该矩阵不等式对角线元素的直接推论。在参数变换 τ=g(θ)\tau = g(\theta) 的情形下,CRLB进一步推广为 Var(τ^)[g(θ)]2/In(θ)\operatorname{Var}(\hat{\tau}) \geq [g'(\theta)]^2 / I_n(\theta)

CRLB的局限性体现在三个方面。其一,它仅适用于无偏估计量;对于有偏估计量(如岭回归LASSO等正则化方法),方差可能低于CRLB,此时需使用推广形式 Var(θ^)[1+b(θ)]2/In(θ)\operatorname{Var}(\hat{\theta}) \geq [1 + b'(\theta)]^2 / I_n(\theta),其中 b(θ)b(\theta) 为偏差函数。其二,正则条件不成立时(如支撑集依赖参数的均匀分布),CRLB失效,此时可采用查普曼-罗宾斯界(Chapman-Robbins Bound)等更一般的下界工具。其三,CRLB是逐点下界而非一致下界,即对每个固定的 θ\theta 成立,但不存在在所有 θ\theta 上同时达到下界的单一估计量——这一事实引出了超有效估计量的概念。

CRLB与充分统计量一致最小方差无偏估计量(UMVUE)以及渐近理论共同构成了参数估计精度分析的完整理论框架,是理解现代计量经济学统计推断方法最优性的理论基石。