ARTICLE

Fisher Information Matrix

Fisher信息矩阵 (Fisher Information Matrix) Fisher信息矩阵（Fisher Information Matrix, FIM）是Fisher信息在多参数情形下的矩阵形式推广，由R.A. Fisher爵士创立。当统计模型中的未知参数是一个公式维向量公式时，标量的Fisher信息被推广为一个公式的对称矩阵，用以全面

浏览 0 更新 2026-05-25

Fisher信息矩阵 (Fisher Information Matrix)

Fisher信息矩阵（Fisher Information Matrix, FIM）是Fisher信息在多参数情形下的矩阵形式推广，由R.A. Fisher爵士创立。当统计模型中的未知参数是一个 $k$ 维向量 $\theta = (\theta_1, \ldots, \theta_k)^T$ 时，标量的Fisher信息被推广为一个 $k \times k$ 的对称矩阵，用以全面刻画样本数据对不同参数分量及其相互关系的综合信息含量。Fisher信息矩阵是推导Cramér-Rao下界多参数版本的起点，也是极大似然估计的渐近正态性、实验设计最优性准则和信息几何等理论的共同根基。

定义与计算

设随机变量 $X$ 的概率密度函数为 $f(x; \theta)$ ，其中 $\theta \in \Theta \subseteq \mathbb{R}^k$ 。对数似然函数记为 $\ell(\theta; x) = \log f(x; \theta)$ 。得分函数（Score Function）定义为对数似然关于参数向量的梯度：

U(\theta; X) = \nabla_\theta \ell(\theta; X) = \left(\frac{\partial \ell}{\partial \theta_1}, \ldots, \frac{\partial \ell}{\partial \theta_k}\right)^T

在正则条件下得分函数在真实参数处的期望为零向量： $E[U(\theta; X)] = 0$ 。Fisher信息矩阵 $\mathcal{I}(\theta)$ 定义为得分函数的协方差矩阵：

\mathcal{I}(\theta) = E[U(\theta; X) U(\theta; X)^T] = \text{Cov}[U(\theta; X)]

其第 $(i, j)$ 个元素为：

\mathcal{I}_{ij}(\theta) = E\left[ \frac{\partial \ell}{\partial \theta_i} \cdot \frac{\partial \ell}{\partial \theta_j} \right]

在二阶可导性假设下存在一个计算上更为方便的形式——利用对数似然的Hessian矩阵：

\mathcal{I}_{ij}(\theta) = -E\left[ \frac{\partial^2 \ell(\theta; X)}{\partial \theta_i \partial \theta_j} \right]

即Fisher信息矩阵等于对数似然在 $\theta$ 处期望负Hessian矩阵： $\mathcal{I}(\theta) = -E[H_\ell(\theta)]$ 。该形式揭示了一个核心几何直觉：Fisher信息矩阵衡量对数似然曲面在参数真值附近的期望曲率——曲率越大，似然越尖锐，参数估计越精确；曲率越小，似然越平坦，数据对参数的约束力越弱。

对于独立同分布样本 $X_1, \ldots, X_n$ ，Fisher信息矩阵具有可加性： $\mathcal{I}_n(\theta) = n \cdot \mathcal{I}(\theta)$ ——样本量扩大 $n$ 倍，总信息量线性增长。

实践中常区分两个概念。期望Fisher信息：上述基于分布取期望的定义 $\mathcal{I}(\theta)$ ，在理论分析中处处可见。观测Fisher信息：在具体观测数据 $x$ 下直接计算对数似然的负Hessian，即 $\hat{\mathcal{I}}(\theta) = -\partial^2 \ell(\theta; x) / \partial \theta \partial \theta^T$ ——Efron和Hinkley的研究显示有限样本中观测信息矩阵往往更准确地反映似然在当前数据下的实际曲率，因而在推断中被广泛采用。

基本性质

Fisher信息矩阵具有一系列深刻的数学性质。

对称性与半正定性：由混合偏导数的对称性， $\mathcal{I}_{ij} = \mathcal{I}_{ji}$ ，信息矩阵是对称矩阵。对任意非零向量 $a \in \mathbb{R}^k$ ，二次型 $a^T \mathcal{I}(\theta) a = E[(a^T U)^2] \ge 0$ ，故信息矩阵半正定。零特征值意味着存在参数空间的某个方向，数据完全不能提供区分信息——此时存在不可识别的参数组合，建模者需要重新审视参数化方式。

参数变换下的协变性：若 $\eta = g(\theta)$ 是一一可微的参数变换，其Jacobian矩阵为 $J = \partial \theta / \partial \eta^T$ ，则Fisher信息矩阵的变换规则为 $\mathcal{I}_\eta(\eta) = J^T \mathcal{I}_\theta(\theta) J$ 。这一性质保证了信息量的内在性——不同参数化方式下信息的实质内容不变，仅矩阵表示按张量变换。正是这一几何不变性使Fisher信息矩阵成为信息几何中黎曼度量的自然候选，Shun'ichi Amari将统计模型视为以 $\mathcal{I}(\theta)$ 为度量的黎曼流形，开创了统计与微分几何的深度交叉。

信息矩阵的逆与偏相关： $\mathcal{I}(\theta)^{-1}$ 的对角元素 $[\mathcal{I}(\theta)^{-1}]_{ii}$ 给出参数分量 $\theta_i$ 的估计精度下界。注意 $[\mathcal{I}^{-1}]_{ii} \ne 1/\mathcal{I}_{ii}$ ——矩阵求逆使不同参数的估计精度产生交叉约束。非对角元素 $\mathcal{I}_{ij}$ （ $i \ne j$ ）衡量参数之间的信息耦合：耦合越强两参数联合估计的相互干扰越严重，各自边际估计精度越低。

多参数Cramér-Rao下界

Fisher信息矩阵最根本的应用是Cramér-Rao下界的多参数推广。设 $\hat{\theta}$ 为 $\theta$ 的任意无偏估计量，则在矩阵偏序（Loewner序）意义下：

\text{Cov}(\hat{\theta}) \succeq \mathcal{I}_n(\theta)^{-1} = \frac{1}{n} \mathcal{I}(\theta)^{-1}

即差值矩阵 $\text{Cov}(\hat{\theta}) - \mathcal{I}_n(\theta)^{-1}$ 半正定。等价地，对任意常数向量 $a \in \mathbb{R}^k$ ，线性组合 $a^T \theta$ 的任何无偏估计量满足 $Var(a^T \hat{\theta}) \ge a^T \mathcal{I}_n(\theta)^{-1} a$ 。特别地，取 $a = e_i$ （第 $i$ 个标准基向量），参数分量 $\theta_i$ 的方差下界为 $[\mathcal{I}_n(\theta)^{-1}]_{ii}$ 。

在多参数情形下，达到矩阵形式Cramér-Rao下界的有限样本联合有效估计量极为罕见，通常仅在指数族分布中——例如多元正态分布均值向量在协方差已知时的样本均值——但一旦协方差也未知，MLE便不再在有限样本下无偏。

极大似然估计的渐近分布

Fisher信息矩阵刻画了极大似然估计的渐近行为。在正则条件下MLE $\hat{\theta}_{MLE}$ 具有渐近多元正态性：

\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N_k(0, \mathcal{I}(\theta_0)^{-1})

由此直接构造三种经典大样本检验：Wald检验（利用 $\hat{\theta}$ 与 $\theta_0$ 的加权距离，权重为信息矩阵）、Score检验（Rao检验，利用得分函数在 $\theta_0$ 处的取值）和似然比检验——三者在原假设下均渐近服从卡方分布 $\chi^2_k$ ，且在局部备择下渐近等价。

重要应用

最优实验设计：选择实验条件极大化Fisher信息矩阵的标量泛函——D-最优（极大化行列式，极小化置信椭球体积）、A-最优（极小化迹，极小化平均方差）、E-最优（极大化最小特征值）——这些准则为采集信息量最大的数据提供了形式化的决策框架。

Jeffreys先验：在多参数贝叶斯推断中，Jeffreys无信息先验为 $\pi(\theta) \propto \sqrt{\det \mathcal{I}(\theta)}$ 。在参数变换 $\eta = g(\theta)$ 下，利用信息矩阵协变律可证 $\pi(\eta) \propto \sqrt{\det \mathcal{I}_\eta(\eta)}$ ——Jeffreys先验是唯一对参数化方式完全免疫的无信息先验，因而在客观贝叶斯分析中占据独特地位。

信息几何与自然梯度：Amari将Fisher信息矩阵作为黎曼度量引入统计流形理论。在该几何框架下，自然梯度下降以 $\mathcal{I}(\theta)^{-1} \nabla_\theta L$ 替代普通梯度，在参数空间中沿最陡的KL散度下降方向移动，在强化学习和变分推断中展现出优越的收敛性。

模型辨别：Fisher信息矩阵的秩、条件数和行列式提供参数可识别性和模型分辨能力的综合诊断。信息矩阵奇异或条件数极高是参数不可识别或弱识别的核心信号，提示建模者需要施加约束或重新设定模型结构。

总之Fisher信息矩阵将标量Fisher信息的直觉与运算系统地扩展到高维参数空间。其逆矩阵刻画最优估计精度，其行列式刻画联合信息容量，其谱结构揭示参数可识别性——这些性质共同使它成为连接似然理论、渐近理论、最优实验设计和信息几何的核心枢纽，在现代统计理论体系中占有不可替代的基础性地位。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。