ARTICLE

费雪信息量

费雪信息量 (Fisher Information) 费雪信息量 (Fisher Information) 是统计学和信息论中的一个核心概念，由统计学家 R.A. Fisher 在 1920 年代提出。它量化了一组观测数据所包含的、关于某个未知参数的"信息"的多少。更精确地说，费雪信息量衡量的是似然函数 L( ) 在真实参数值附近的"陡峭程度"——似然函

浏览 9 更新 2026-01-20

费雪信息量 (Fisher Information)

费雪信息量 (Fisher Information) 是统计学和信息论中的一个核心概念，由统计学家 R.A. Fisher 在 1920 年代提出。它量化了一组观测数据所包含的、关于某个未知参数 $\theta$ 的"信息"的多少。更精确地说，费雪信息量衡量的是似然函数 $L(\theta)$ 在真实参数值附近的"陡峭程度"——似然函数在极大值附近越尖锐，表明数据对参数值的约束越强，我们对该参数的知识也就越确定，信息量就越大。

直观上，如果观测数据对参数 $\theta$ 非常敏感（即 $\theta$ 的微小变化会引起似然度的剧烈变化），则费雪信息量很大；反之，如果数据对 $\theta$ 的变化"漠不关心"，则费雪信息量很小，我们很难从数据中精确估计该参数。

定义与数学表达

设随机变量 $X$ 具有概率密度函数（或概率质量函数） $f(x|\theta)$ ，其中 $\theta$ 是一个未知的实数参数。假设 $f(x|\theta)$ 满足一定的正则条件（可微性、积分与微分可交换等）。记对数似然函数为 $\ell(\theta | x) = \log f(x|\theta)$ 。则 得分函数 (Score Function) 定义为对数似然对参数的一阶导数：

S(\theta) = \frac{\partial \ell(\theta | x)}{\partial \theta} = \frac{\partial}{\partial\theta} \log f(x|\theta)

费雪信息量 $\mathcal{I}(\theta)$ 定义为得分函数的方差：

\mathcal{I}(\theta) = \operatorname{Var}\left[ S(\theta) \right] = \mathbb{E}\left[ \left( \frac{\partial}{\partial\theta} \log f(X|\theta) \right)^2 \middle| \, \theta \right]

在正则条件下，得分函数的期望为零，即 $\mathbb{E}[S(\theta)] = 0$ ，因此费雪信息量也等于得分函数二阶矩的期望。

一个等价的、经常更便于计算的表达式是：

\mathcal{I}(\theta) = -\mathbb{E}\left[ \frac{\partial^2}{\partial\theta^2} \log f(X|\theta) \,\middle|\, \theta \right]

这个形式将信息量与对数似然函数在极值点附近的"曲率"联系起来：曲率越大（越尖锐），信息量越大。

独立同分布样本的情况：若 $X_1, X_2, \dots, X_n$ 是 i.i.d. 样本，则整个样本的费雪信息量具有可加性：

\mathcal{I}_n(\theta) = n \cdot \mathcal{I}_1(\theta)

其中 $\mathcal{I}_1(\theta)$ 是单个观测所携带的费雪信息。这意味着信息量随样本量线性增长，与直觉相符——更多的数据携带更多关于参数的信息。

核心性质与 Cramér-Rao 下界

费雪信息量在统计推断中最重要的作用是通过 Cramér-Rao 不等式（或称 Cramér-Rao 下界，CRLB）来体现。该不等式为任何无偏估计量的方差设定了一个下界：

\operatorname{Var}(\hat{\theta}) \geq \frac{1}{\mathcal{I}(\theta)}

更一般地，对于可微函数 $g(\theta)$ 的任意无偏估计量 $T$ ，有：

\operatorname{Var}(T) \geq \frac{[g'(\theta)]^2}{\mathcal{I}(\theta)}

这个不等式的意义极为深远：它告诉我们，无论我们设计多么精巧的估计方法，都无法使估计量的方差低于费雪信息量的倒数。费雪信息量越大，我们就能越精确地估计参数。当某个估计量的方差恰好等于 Cramér-Rao 下界时，我们称其为 有效估计量 (Efficient Estimator)。

注意：Cramér-Rao 下界只适用于无偏估计量。对于有偏估计量，存在更一般的信息不等式。

与最大似然估计的联系

费雪信息量与最大似然估计 (Maximum Likelihood Estimation, MLE) 有着深刻的内在联系：

渐近正态性：在相当一般的正则条件下，MLE $\hat{\theta}_{\text{MLE}}$ 具有渐近正态性： \[ \sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta_0) \xrightarrow{d} \mathcal{N}\left(0, \frac{1}{\mathcal{I}_1(\theta_0)}\right) \] 其中 $\theta_0$ 是真实参数。这说明在大样本下，MLE 的方差趋近于费雪信息量的倒数，即 MLE 是渐近有效的。
Fisher 得分迭代：在实际计算 MLE 时，常使用 Fisher 得分算法 (Fisher Scoring)，这是一种牛顿-拉弗森方法的变体，利用费雪信息量矩阵替代 Hessian 矩阵进行迭代更新： \[ \theta^{(k+1)} = \theta^{(k)} + \mathcal{I}(\theta^{(k)})^{-1} \cdot S(\theta^{(k)}) \]

多参数情形：费雪信息矩阵

当参数 $\boldsymbol{\theta} = (\theta_1, \theta_2, \dots, \theta_p)^\top$ 是一个向量时，费雪信息量推广为 费雪信息矩阵 (Fisher Information Matrix)，其第 $(i, j)$ 个元素为：

\mathcal{I}_{ij}(\boldsymbol{\theta}) = \mathbb{E}\left[ \frac{\partial \ell}{\partial \theta_i} \cdot \frac{\partial \ell}{\partial \theta_j} \middle| \, \boldsymbol{\theta} \right] = -\mathbb{E}\left[ \frac{\partial^2 \ell}{\partial \theta_i \partial \theta_j} \middle| \, \boldsymbol{\theta} \right]

在多参数情形下，Cramér-Rao 下界推广为矩阵不等式：对于任意无偏估计量 $\hat{\boldsymbol{\theta}}$ ，

\operatorname{Cov}(\hat{\boldsymbol{\theta}}) \succeq \mathcal{I}(\boldsymbol{\theta})^{-1}

即协方差矩阵与费雪信息矩阵逆的差为半正定矩阵。这意味着每个参数 $\theta_i$ 的估计方差至少为 $[\mathcal{I}(\boldsymbol{\theta})^{-1}]_{ii}$ 。

实例演算

例 1：伯努利分布

设 $X \sim \text{Bernoulli}(p)$ ，即 $f(x|p) = p^x (1-p)^{1-x}$ ， $x \in \{0, 1\}$ 。

对数似然： $\ell(p|x) = x\log p + (1-x)\log(1-p)$

得分函数： $S(p) = \frac{x}{p} - \frac{1-x}{1-p} = \frac{x-p}{p(1-p)}$

费雪信息量（使用方差形式）：

\mathcal{I}(p) = \operatorname{Var}\left[ \frac{X - p}{p(1-p)} \right] = \frac{\operatorname{Var}(X)}{p^2 (1-p)^2} = \frac{p(1-p)}{p^2 (1-p)^2} = \frac{1}{p(1-p)}

也可以用曲率形式验证： $\frac{\partial^2 \ell}{\partial p^2} = -\frac{x}{p^2} - \frac{1-x}{(1-p)^2}$ ，取期望得 $-\mathbb{E}[\cdot] = \frac{1}{p} + \frac{1}{1-p} = \frac{1}{p(1-p)}$ ，结果一致。

解读：当 $p \to 0$ 或 $p \to 1$ 时， $\mathcal{I}(p) \to \infty$ ，说明极端概率更容易被精确估计（因为观测的变异性极小）。当 $p = 0.5$ 时，信息量最小，为 $4$ ，对应方差下界为 $1/4n$ 。

例 2：正态分布（均值参数）

设 $X \sim \mathcal{N}(\mu, \sigma^2)$ ，其中 $\sigma^2$ 已知。

对数似然： $\ell(\mu|x) = -\frac{1}{2}\log(2\pi\sigma^2) - \frac{(x-\mu)^2}{2\sigma^2}$

得分函数： $S(\mu) = \frac{x-\mu}{\sigma^2}$

费雪信息量： $\mathcal{I}(\mu) = \operatorname{Var}\left[ \frac{X-\mu}{\sigma^2} \right] = \frac{\sigma^2}{\sigma^4} = \frac{1}{\sigma^2}$

这与直觉高度吻合：噪声 $\sigma^2$ 越小，每个观测关于 $\mu$ 的信息就越丰富。 $n$ 个 i.i.d. 样本的总信息量为 $n/\sigma^2$ ，因此样本均值的方差下界为 $\sigma^2/n$ ——而样本均值 $\bar{X}$ 恰好达到了这个下界，所以 $\bar{X}$ 是有效估计量。

费雪信息量与信息论

费雪信息量与信息论中的 KL 散度 (Kullback–Leibler Divergence) 存在深刻的几何联系。考虑两个相邻参数 $\theta$ 和 $\theta' = \theta + \Delta\theta$ 下分布的 KL 散度 $D_{\text{KL}}(f(\cdot|\theta) \| f(\cdot|\theta'))$ 。对其做泰勒展开，二阶项恰好由费雪信息量控制：

D_{\text{KL}}(f_\theta \| f_{\theta + \Delta\theta}) \approx \frac{1}{2} \mathcal{I}(\theta) (\Delta\theta)^2

这意味着费雪信息量就是概率分布流形上由 KL 散度诱导的 Riemannian 度量，在信息几何 (Information Geometry) 中扮演核心角色。它赋予了参数空间一个"距离"的概念： $\Delta\theta$ 在信息量更大的区域中代表了更大的统计区分度。

实际应用中的重要性

实验设计 (Experimental Design)：费雪信息量是最优实验设计的核心准则。D-最优设计（最大化信息矩阵的行列式）和 A-最优设计（最小化信息矩阵逆的迹）都直接基于费雪信息矩阵建立，用于选择最能提供参数信息的实验条件。
模型比较与选择：在模型选择中，观测到的费雪信息量（Observed Fisher Information）用于计算某些信息准则和进行 Wald 检验。Wald 检验统计量 $W = (\hat{\theta} - \theta_0)^\top \mathcal{I}(\hat{\theta}) (\hat{\theta} - \theta_0)$ 在大样本下服从卡方分布。
Jeffreys 先验：在贝叶斯统计中，Jeffreys 无信息先验 直接由费雪信息量构造： \[ \pi(\theta) \propto \sqrt{\mathcal{I}(\theta)} \] 该先验具有参数变换不变性的优良性质，即无论对 $\theta$ 做何种一一变换，Jeffreys 先验的形式保持一致。
机器学习：在自然梯度下降 (Natural Gradient Descent) 中，参数更新方向不是普通的梯度方向，而是经过费雪信息矩阵"白化"后的方向： $\Delta\theta \propto \mathcal{I}(\theta)^{-1} \nabla_\theta \mathcal{L}$ 。这使得优化过程在参数空间的 Riemannian 度量意义下沿最陡下降方向前进，在强化学习和深度学习中均有应用。

小结

费雪信息量是连接估计理论、信息论和微分几何的桥梁。它用一个简洁的数学量捕捉了"数据能告诉我们多少关于参数的信息"这一根本问题。从 Cramér-Rao 下界到自然梯度下降，从 Jeffreys 先验到信息几何，费雪信息量遍布统计与机器学习的各个角落，是现代数理统计不可或缺的理论工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。