ARTICLE

克拉默-拉奥下界 (Cramér-Rao Lower Bound)

克拉默-拉奥下界 (Cramér-Rao Lower Bound) 克拉默-拉奥下界（Cramér-Rao Lower Bound, CRLB）是参数估计理论中最基本的不等式之一，由瑞典统计学家 Harald Cramér（1946）和印度统计学家 C. R. Rao（1945）独立证明。CRLB 给出了任意无偏估计量方差所能达到的理论下界——当且仅当估计量

浏览 0 更新 2025-10-26

克拉默-拉奥下界 (Cramér-Rao Lower Bound)

克拉默-拉奥下界（Cramér-Rao Lower Bound, CRLB）是参数估计理论中最基本的不等式之一，由瑞典统计学家 Harald Cramér（1946）和印度统计学家 C. R. Rao（1945）独立证明。CRLB 给出了任意无偏估计量方差所能达到的理论下界——当且仅当估计量是充分统计量的函数且满足特定正则条件时，该下界才是紧的。简而言之，CRLB 回答了这样一个根本性问题：「在给定的统计模型与数据下，我们最多能把一个未知参数估计得多精确？」

形式上，设 $X = (X_1, X_2, \ldots, X_n)$ 为来自分布 $f(x \mid \theta)$ 的 i.i.d. 样本，其中 $\theta \in \Theta \subseteq \mathbb{R}$ 为待估参数。令 $\hat{\theta}(X)$ 为 $\theta$ 的任意无偏估计量，即 $\mathbb{E}_\theta[\hat{\theta}] = \theta$ ，则在一定的正则条件下：

\operatorname{Var}_\theta(\hat{\theta}) \geq \frac{1}{I_n(\theta)} = \frac{1}{n I(\theta)}

其中 $I_n(\theta)$ 为样本的 Fisher信息， $I(\theta)$ 为单个观测的 Fisher 信息：

I(\theta) = \mathbb{E}_\theta\left[ \left( \frac{\partial}{\partial \theta} \log f(X \mid \theta) \right)^2 \right] = -\mathbb{E}_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log f(X \mid \theta) \right]

Fisher 信息量度了单个观测携带的关于 $\theta$ 的信息： $I(\theta)$ 越大，参数越容易被精确估计，下界越紧。

正则条件

CRLB 的成立需要以下正则条件（regularity conditions），这些条件保证了积分与微分次序的可交换性：

参数空间 $\Theta$ 为 $\mathbb{R}$ 上的开集，且分布族 $\{f(x \mid \theta)\}$ 具有共同的支撑集（support），即支撑集不依赖于 $\theta$ 。
对于任意 $x$ ，对数似然 $\log f(x \mid \theta)$ 关于 $\theta$ 可微。
似然函数的积分与微分可交换： \[ \frac{\partial}{\partial \theta} \int f(x \mid \theta) \, dx = \int \frac{\partial}{\partial \theta} f(x \mid \theta) \, dx \]
Fisher 信息满足 $0 < I(\theta) < \infty$ 。

违反支撑集不依赖于 $\theta$ 的条件将使 CRLB 不适用。典型反例为均匀分布 $X \sim U(0, \theta)$ ：其支撑集为 $[0, \theta]$ ，依赖于参数 $\theta$ ，此时最大似然估计量 $\hat{\theta} = \max\{X_i\}$ 的方差数量级为 $O(n^{-2})$ ，远低于 $O(n^{-1})$ 的 CRLB 速率。

证明概要

CRLB 的核心证明利用了柯西-施瓦茨不等式（Cauchy-Schwarz Inequality）。定义得分函数（score function）：

S(\theta, X) = \frac{\partial}{\partial \theta} \log f(X \mid \theta)

在正则条件下，得分函数的期望为零： $\mathbb{E}_\theta[S(\theta, X)] = 0$ ，其方差即为 Fisher 信息： $\operatorname{Var}_\theta[S(\theta, X)] = I(\theta)$ 。

由于 $\hat{\theta}$ 是无偏的，有 $\mathbb{E}_\theta[\hat{\theta}] = \theta$ 。对等式两边关于 $\theta$ 求导，利用正则条件交换积分与微分，得：

1 = \frac{\partial}{\partial \theta} \mathbb{E}_\theta[\hat{\theta}] = \frac{\partial}{\partial \theta} \int \hat{\theta}(x) f(x \mid \theta) \, dx = \int \hat{\theta}(x) \frac{\partial}{\partial \theta} f(x \mid \theta) \, dx = \mathbb{E}_\theta[\hat{\theta} \cdot S(\theta, X)]

由此 $\operatorname{Cov}_\theta(\hat{\theta}, S) = \mathbb{E}_\theta[\hat{\theta} \cdot S] - \mathbb{E}_\theta[\hat{\theta}] \cdot \mathbb{E}_\theta[S] = 1 - \theta \cdot 0 = 1$ 。

对 $\hat{\theta}$ 与 $S$ 应用柯西-施瓦茨不等式：

[\operatorname{Cov}_\theta(\hat{\theta}, S)]^2 \leq \operatorname{Var}_\theta(\hat{\theta}) \cdot \operatorname{Var}_\theta(S)

代入 $\operatorname{Cov} = 1$ 与 $\operatorname{Var}(S) = I_n(\theta)$ ，即得：

\operatorname{Var}_\theta(\hat{\theta}) \geq \frac{1}{I_n(\theta)}

等号成立当且仅当 $\hat{\theta}$ 与 $S$ 线性相关，即存在函数 $k(\theta)$ 使得 $S(\theta, X) = k(\theta)(\hat{\theta} - \theta)$ 。这意味着分布族属于指数族，且 $\hat{\theta}$ 为充分统计量。

经典例子

正态分布均值的估计

设 $X_1, \ldots, X_n \overset{\text{i.i.d.}}{\sim} N(\mu, \sigma^2)$ ，其中 $\sigma^2$ 已知， $\mu$ 为待估参数。对数似然关于 $\mu$ 的导数为：

\frac{\partial}{\partial \mu} \log f = \frac{x - \mu}{\sigma^2}, \quad I(\mu) = \mathbb{E}\left[ \frac{(X - \mu)^2}{\sigma^4} \right] = \frac{1}{\sigma^2}

样本均值 $\bar{X}$ 是 $\mu$ 的无偏估计，其方差为 $\operatorname{Var}(\bar{X}) = \sigma^2 / n = 1 / I_n(\mu)$ ，恰好达到 CRLB。因此 $\bar{X}$ 是 $\mu$ 的有效估计量（efficient estimator）。

Bernoulli 分布

设 $X \sim \text{Bernoulli}(p)$ ，即 $f(x \mid p) = p^x (1-p)^{1-x}$ ， $x \in \{0, 1\}$ 。Fisher 信息为：

I(p) = \frac{1}{p(1-p)}

对于 $n$ 次独立试验，样本比例 $\hat{p} = \sum X_i / n$ 的方差为：

\operatorname{Var}(\hat{p}) = \frac{p(1-p)}{n} = \frac{1}{I_n(p)}

再次达到 CRLB， $\hat{p}$ 为有效估计量。注意当 $p \to 0$ 或 $p \to 1$ 时， $I(p) \to \infty$ ，下界趋近于零——极端概率反而更容易被精确估计。

多参数情形

当 $\boldsymbol{\theta} = (\theta_1, \ldots, \theta_k)^\top$ 为向量参数时，CRLB 推广为矩阵形式。定义 Fisher 信息矩阵 $\mathbf{I}(\boldsymbol{\theta})$ ，其第 $(i, j)$ 个元素为：

公式暂不可显示

则对于 $\boldsymbol{\theta}$ 的任意无偏估计量 $\hat{\boldsymbol{\theta}}$ ，其协方差矩阵满足（以 Löwner 偏序）：

公式暂不可显示

即 $\operatorname{Cov}(\hat{\boldsymbol{\theta}}) - \mathbf{I}(\boldsymbol{\theta})^{-1}$ 为半正定矩阵。特别地，对任意线性组合 $\mathbf{a}^\top \boldsymbol{\theta}$ ，有：

公式暂不可显示

这一推广在计量经济学中至关重要——例如在线性回归模型 $Y = X\beta + \varepsilon$ 中，OLS 估计量 $\hat{\beta}_{\text{OLS}}$ 在高斯-马尔可夫定理下是最优线性无偏估计量（BLUE），但其方差 $\sigma^2 (X^\top X)^{-1}$ 是否达到 CRLB，则取决于误差项 $\varepsilon$ 是否服从正态分布。

与最大似然估计的关系

最大似然估计量（MLE） $\hat{\theta}_{\text{MLE}}$ 在大样本下具有渐近正态性与渐近有效性：

\sqrt{n} (\hat{\theta}_{\text{MLE}} - \theta) \xrightarrow{d} N(0, I(\theta)^{-1})

即 MLE 渐近地达到 CRLB。这是 MLE 在参数估计问题中具有核心地位的根本原因之一。然而，在有限样本下，MLE 通常并不恰好达到 CRLB（正态均值等指数族中的参数除外），且可能存在偏差——偏差的存在使得无偏 CRLB 不再直接适用。对于有偏估计量，需借助 Bhattacharyya 下界或采用信息不等式的一般化形式。

在计量经济学中的应用

CRLB 是渐进理论中效率比较的基准工具。在工具变量（IV）估计中，当存在多个有效工具变量时，两阶段最小二乘（2SLS）估计量并非在所有 IV 估计量中方差最小；有限信息最大似然法（LIML）可渐近达到 CRLB，而 2SLS 在过度识别情形下通常不能。同理，在广义矩估计（GMM）框架中，基于最优权重矩阵的 GMM 估计量（Hansen, 1982）在给定的矩条件下渐近达到 CRLB，这也是「最优 GMM」名称的由来。

此外，CRLB 还被用于实验设计中：给定 Fisher 信息的表达式，研究者可通过选择设计变量 $x$ 的分布来最大化 $I(\theta)$ ，从而最小化估计方差——此即最优实验设计（optimal design）的基本原理。

局限与推广

CRLB 的主要局限在于：（1）仅适用于无偏估计量，对于有偏估计量需要修正形式；（2）对正则条件的依赖较强，在非正则问题中下界不可达；（3）CRLB 仅给出方差下界，而未说明该下界是否可被任何估计量达到。

重要的推广包括：Bhattacharyya 下界（利用得分函数的高阶导数给出更紧的下界，适用于 MLE 等有偏估计量）、Chapman-Robbins 不等式（不依赖正则条件，仅利用分布之差）、以及 van Trees 不等式（贝叶斯版本的 CRLB，将参数视为随机变量并纳入先验信息）。在当代高维统计与机器学习中，CRLB 的思想也被推广至非参数模型与稀疏估计的 minimax 下界分析，成为统计最优性理论的推理基石。

Cramér 与 Rao 的这项工作以简洁的不等式形式，精确地刻画了数据、模型与估计精度之间的内在制约关系，是统计学从描述走向推断的标志性成就之一。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。