ARTICLE

费希尔信息量

费希尔信息量（Fisher Information）是数理统计中衡量随机变量所含未知参数信息量的核心概念，由英国统计学家罗纳德·费希尔在20世纪20年代系统发展。它刻画了观测数据对未知参数的辨识能力——信息量越大，意味着参数估计的方差越小、估计越精确。费希尔信息量不仅是克拉美-拉奥下界的理论基础，也是最大似然估计渐近方差、试验设计与贝叶斯先验选择的重要判据，

浏览 0 更新 2025-12-03

费希尔信息量（Fisher Information）是数理统计中衡量随机变量所含未知参数信息量的核心概念，由英国统计学家罗纳德·费希尔在20世纪20年代系统发展。它刻画了观测数据对未知参数的辨识能力——信息量越大，意味着参数估计的方差越小、估计越精确。费希尔信息量不仅是克拉美-拉奥下界的理论基础，也是最大似然估计渐近方差、试验设计与贝叶斯先验选择的重要判据，在统计推断、信息几何与神经科学中均有广泛应用。

一、定义与数学形式

费希尔信息量的定义基于得分函数（Score Function）。设 $X$ 为随机变量，其概率密度函数（或概率质量函数）为 $f(x;\theta)$ ，参数 $\theta$ 为一维实数。得分函数定义为对数似然函数关于参数的一阶导数：

S(\theta) = \frac{\partial}{\partial\theta} \ln f(X;\theta)

在正则条件下，得分函数的期望为零： $\mathbb{E}[S(\theta)] = 0$ 。费希尔信息量 $I(\theta)$ 定义为得分函数的方差：

I(\theta) = \mathrm{Var}[S(\theta)] = \mathbb{E}\left[\left(\frac{\partial}{\partial\theta} \ln f(X;\theta)\right)^2\right]

在二阶可导条件下，存在等价表达式：

I(\theta) = -\mathbb{E}\left[\frac{\partial^2}{\partial\theta^2} \ln f(X;\theta)\right]

后一形式在实际计算中更为常用——它将对数似然函数的曲率期望与信息量联系起来：对数似然曲面越"陡峭"，参数的信息量越大，估计越精确。直观理解，若对数似然函数在参数真值附近呈尖锐峰值，则观测数据所携带的参数信息极为丰富；若曲线平坦宽广，则数据对参数取值几乎"无话可说"。

对于多维参数向量 $\boldsymbol{\theta} = (\theta_1, \ldots, \theta_k)^T$ ，费希尔信息矩阵（Fisher Information Matrix）的 $(i, j)$ 元素为：

I(\theta)_{ij} = \mathbb{E}\left[\frac{\partial}{\partial\theta_i} \ln f(X;\boldsymbol{\theta}) \cdot \frac{\partial}{\partial\theta_j} \ln f(X;\boldsymbol{\theta})\right]

该矩阵对称半正定，其逆矩阵即为最大似然估计的渐近协方差矩阵。

二、克拉美-拉奥下界

费希尔信息量的核心应用体现在克拉美-拉奥下界（Cramér-Rao Lower Bound, CRLB）中。该定理指出，在正则条件下，参数 $\theta$ 的任意无偏估计量 $\hat{\theta}$ 的方差满足：

\mathrm{Var}(\hat{\theta}) \geq \frac{1}{n I(\theta)}

其中 $n$ 为样本量。这意味着费希尔信息量从理论上给出了参数估计精度的天花板——没有任何无偏估计能超越这一下界。当一个估计量的方差恰好等于克拉美-拉奥下界时，称其为有效估计量（Efficient Estimator）。最大似然估计在渐近意义上达到这一下界，因此被广泛视为最优估计方法。

以伯努利分布为例。设 $X \sim \mathrm{Bernoulli}(p)$ ，其对数似然函数为 $\ln f(x;p) = x\ln p + (1-x)\ln(1-p)$ 。二阶导数为 $\partial^2 \ln f / \partial p^2 = -x/p^2 - (1-x)/(1-p)^2$ ，取期望得 $I(p) = 1/[p(1-p)]$ 。克拉美-拉奥下界为 $p(1-p)/n$ ，恰好等于样本均值的方差——这意味着样本均值 $\bar{X}$ 是 $p$ 的有效估计量。类似地，正态分布 $N(\mu, \sigma^2)$ 中均值 $\mu$ 的费希尔信息量为 $I(\mu) = 1/\sigma^2$ ，下界为 $\sigma^2/n$ ，样本均值同样达到这一下界。

三、分布实例

常见分布族的费希尔信息量可通过直接计算对数似然的二阶矩获得。

正态分布：设 $X \sim N(\mu, \sigma^2)$ ，其中 $\sigma^2$ 已知。对数似然函数为 $\ln f = -\frac{1}{2}\ln(2\pi\sigma^2) - (x-\mu)^2/(2\sigma^2)$ 。关于 $\mu$ 的二阶导数为 $-1/\sigma^2$ ，取期望得 $I(\mu) = 1/\sigma^2$ ——信息量随方差增大而减小，直观上合理。若 $\mu$ 已知而 $\sigma^2$ 未知，则关于方差的信息量为 $I(\sigma^2) = 1/(2\sigma^4)$ 。

泊松分布：设 $X \sim \mathrm{Poisson}(\lambda)$ ，对数似然为 $\ln f = x\ln\lambda - \lambda - \ln x!$ 。二阶导数为 $-x/\lambda^2$ ，期望为 $-\lambda/\lambda^2 = -1/\lambda$ ，故 $I(\lambda) = 1/\lambda$ 。信息量随均值增大而减小，反映泊松分布在均值较小时对参数变化更为敏感。

指数分布：设 $X \sim \mathrm{Exponential}(\lambda)$ ，密度函数 $f(x;\lambda) = \lambda e^{-\lambda x}$ ，对数似然为 $\ln f = \ln\lambda - \lambda x$ 。二阶导数为 $-1/\lambda^2$ ，得 $I(\lambda) = 1/\lambda^2$ 。若以尺度参数 $\theta = 1/\lambda$ 为参数，则 $I(\theta) = 1/\theta^2$ 。

二项分布：设 $X \sim \mathrm{Binomial}(n, p)$ ，其信息量为 $I(p) = n/[p(1-p)]$ ，是单次伯努利试验信息量的 $n$ 倍——这正是独立同分布性质的自然推论：独立观测的信息量具有可加性。

四、性质与重要结论

费希尔信息量具有若干关键性质，在统计推断中扮演基础性角色。

可加性：若 $X_1, X_2, \ldots, X_n$ 独立同分布于 $f(x;\theta)$ ，则整个样本的信息量为单个观测信息量的 $n$ 倍： $I_n(\theta) = n I_1(\theta)$ 。这一性质解释了为何增大样本量总能提高估计精度，也使得信息量在试验设计中成为确定样本规模的直接依据。

参数变换下的行为：若 $\phi = g(\theta)$ 是参数的可微变换，则信息量按平方导数缩放： $I(\phi) = I(\theta) / [g'(\theta)]^2$ 。这意味着参数再参数化会改变信息量的绝对值，但克拉美-拉奥下界的相对大小在变换后保持一致性。这一性质在构建不变先验（Jeffreys先验）中起到关键作用。

Jeffreys先验：在贝叶斯统计中，Jeffreys先验定义为 $\pi(\theta) \propto \sqrt{I(\theta)}$ 。该先验在参数再参数化下保持不变（即具有参数化不变性），被视为"无信息"先验的客观选择。例如，对于正态分布均值 $\mu$ ， $I(\mu) = 1/\sigma^2$ 为常数，故Jeffreys先验为均匀先验；对于伯努利分布的成功概率 $p$ ， $I(p) = 1/[p(1-p)]$ ，Jeffreys先验为 $\pi(p) \propto 1/\sqrt{p(1-p)}$ ，即贝塔分布 $\mathrm{Beta}(1/2, 1/2)$ 。

渐近正态性：在正则条件下，最大似然估计量 $\hat{\theta}_n$ 满足渐近正态性： $\sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} N(0, 1/I(\theta))$ 。这意味着费希尔信息量的倒数直接决定了最大似然估计的渐近方差，为构建置信区间与假设检验提供了理论基础。

五、应用与扩展

费希尔信息量的应用横跨多个学科领域。在试验设计中，研究者通过最大化信息量来选择最优实验方案——D-最优设计选取最大化信息矩阵行列式的参数组合，A-最优设计最小化参数估计的方差之和，这些准则均以费希尔信息矩阵为核心工具。在生物统计学中，药剂剂量-反应模型的信息量分析帮助确定最有效的给药方案，以最少的实验动物获取最大的统计推断精度。

在信息几何领域，费希尔信息矩阵被用作统计流形上的黎曼度量，定义了概率分布空间中的距离与曲率。这一视角将统计推断问题转化为几何问题：最大似然估计对应流形上的投影，自然梯度下降则利用费希尔信息矩阵调整学习率，在神经网络训练中加速收敛。在神经科学中，费希尔信息量用于量化神经元群体编码的精度——通过计算神经放电率模型的信息量，研究者能推断感觉刺激的表征极限。

在量子统计中，量子费希尔信息量（Quantum Fisher Information）将经典概念推广至量子系统，用于刻画量子态对参数的敏感度，是量子计量学中测量精度的核心上界。在量子增强传感和引力波探测领域，量子费希尔信息量直接决定了传感器能达到的极限精度。

六、局限与注意事项

费希尔信息量虽强大，但应用时需注意其局限。首先，正则条件（密度函数定义域不依赖参数、对数似然函数可微且积分与求导可交换）并非总是满足。均匀分布 $U(0, \theta)$ 的定义域依赖于参数 $\theta$ ，此时正则条件失效，克拉美-拉奥下界不适用。其次，当模型参数近边界时（如伯努利分布的 $p$ 接近0或1），信息量趋于无穷，但仍需有限样本下的精确分析。此外，模型误设程度较高时，基于费希尔信息量的渐近推论可能产生误导，需结合稳健标准误进行调整。

总结

费希尔信息量是统计推断的理论基石，它从信息论视角量化了数据对未知参数的辨识能力。无论是克拉美-拉奥下界赋予参数估计的精度上限，还是最大似然估计的渐近方差、Jeffreys先验的参数化不变性，抑或信息几何中作为黎曼度量的几何诠释，费希尔信息量均贯穿于统计学从基础理论到前沿应用的各个层面。理解费希尔信息量，是深入掌握现代统计推断、试验设计与机器学习方法论不可或缺的关键一步。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。