ARTICLE

Fisher Information Matrix

Fisher信息矩阵 (Fisher Information Matrix) Fisher信息矩阵(Fisher Information Matrix, FIM)是Fisher信息在多参数情形下的矩阵形式推广,由R.A. Fisher爵士创立。当统计模型中的未知参数是一个k维向量 = ( _1, , _k)^T时,标量的Fisher信息被推广为一个k k的对

浏览 0 更新 2026-05-25

Fisher信息矩阵 (Fisher Information Matrix)

Fisher信息矩阵(Fisher Information Matrix, FIM)是Fisher信息在多参数情形下的矩阵形式推广,由R.A. Fisher爵士创立。当统计模型中的未知参数是一个kk维向量θ=(θ1,,θk)T\theta = (\theta_1, \ldots, \theta_k)^T时,标量的Fisher信息被推广为一个k×kk \times k的对称矩阵,用以全面刻画样本数据对不同参数分量及其相互关系的综合信息含量。Fisher信息矩阵是推导Cramér-Rao下界多参数版本的起点,也是极大似然估计渐近正态性实验设计最优性准则和信息几何等理论的共同根基。

定义与计算

设随机变量XX概率密度函数f(x;θ)f(x; \theta),其中θΘRk\theta \in \Theta \subseteq \mathbb{R}^k对数似然函数记为(θ;x)=logf(x;θ)\ell(\theta; x) = \log f(x; \theta)得分函数(Score Function)定义为对数似然关于参数向量的梯度:

U(θ;X)=θ(θ;X)=(θ1,,θk)TU(\theta; X) = \nabla_\theta \ell(\theta; X) = \left(\frac{\partial \ell}{\partial \theta_1}, \ldots, \frac{\partial \ell}{\partial \theta_k}\right)^T

正则条件下得分函数在真实参数处的期望为零向量:E[U(θ;X)]=0E[U(\theta; X)] = 0。Fisher信息矩阵I(θ)\mathcal{I}(\theta)定义为得分函数的协方差矩阵

I(θ)=E[U(θ;X)U(θ;X)T]=Cov[U(θ;X)]\mathcal{I}(\theta) = E[U(\theta; X) U(\theta; X)^T] = \text{Cov}[U(\theta; X)]

其第(i,j)(i, j)个元素为:

Iij(θ)=E[θiθj]\mathcal{I}_{ij}(\theta) = E\left[ \frac{\partial \ell}{\partial \theta_i} \cdot \frac{\partial \ell}{\partial \theta_j} \right]

在二阶可导性假设下存在一个计算上更为方便的形式——利用对数似然的Hessian矩阵

Iij(θ)=E[2(θ;X)θiθj]\mathcal{I}_{ij}(\theta) = -E\left[ \frac{\partial^2 \ell(\theta; X)}{\partial \theta_i \partial \theta_j} \right]

即Fisher信息矩阵等于对数似然在θ\theta处期望负Hessian矩阵:I(θ)=E[H(θ)]\mathcal{I}(\theta) = -E[H_\ell(\theta)]。该形式揭示了一个核心几何直觉:Fisher信息矩阵衡量对数似然曲面在参数真值附近的期望曲率——曲率越大,似然越尖锐,参数估计越精确;曲率越小,似然越平坦,数据对参数的约束力越弱。

对于独立同分布样本X1,,XnX_1, \ldots, X_n,Fisher信息矩阵具有可加性In(θ)=nI(θ)\mathcal{I}_n(\theta) = n \cdot \mathcal{I}(\theta)——样本量扩大nn倍,总信息量线性增长。

实践中常区分两个概念。期望Fisher信息:上述基于分布取期望的定义I(θ)\mathcal{I}(\theta),在理论分析中处处可见。观测Fisher信息:在具体观测数据xx下直接计算对数似然的负Hessian,即I^(θ)=2(θ;x)/θθT\hat{\mathcal{I}}(\theta) = -\partial^2 \ell(\theta; x) / \partial \theta \partial \theta^T——Efron和Hinkley的研究显示有限样本中观测信息矩阵往往更准确地反映似然在当前数据下的实际曲率,因而在推断中被广泛采用。

基本性质

Fisher信息矩阵具有一系列深刻的数学性质。

对称性与半正定性:由混合偏导数的对称性,Iij=Iji\mathcal{I}_{ij} = \mathcal{I}_{ji},信息矩阵是对称矩阵。对任意非零向量aRka \in \mathbb{R}^k,二次型aTI(θ)a=E[(aTU)2]0a^T \mathcal{I}(\theta) a = E[(a^T U)^2] \ge 0,故信息矩阵半正定。零特征值意味着存在参数空间的某个方向,数据完全不能提供区分信息——此时存在不可识别的参数组合,建模者需要重新审视参数化方式。

参数变换下的协变性:若η=g(θ)\eta = g(\theta)是一一可微的参数变换,其Jacobian矩阵J=θ/ηTJ = \partial \theta / \partial \eta^T,则Fisher信息矩阵的变换规则为Iη(η)=JTIθ(θ)J\mathcal{I}_\eta(\eta) = J^T \mathcal{I}_\theta(\theta) J。这一性质保证了信息量的内在性——不同参数化方式下信息的实质内容不变,仅矩阵表示按张量变换。正是这一几何不变性使Fisher信息矩阵成为信息几何黎曼度量的自然候选,Shun'ichi Amari将统计模型视为以I(θ)\mathcal{I}(\theta)为度量的黎曼流形,开创了统计与微分几何的深度交叉。

信息矩阵的逆与偏相关I(θ)1\mathcal{I}(\theta)^{-1}的对角元素[I(θ)1]ii[\mathcal{I}(\theta)^{-1}]_{ii}给出参数分量θi\theta_i的估计精度下界。注意[I1]ii1/Iii[\mathcal{I}^{-1}]_{ii} \ne 1/\mathcal{I}_{ii}——矩阵求逆使不同参数的估计精度产生交叉约束。非对角元素Iij\mathcal{I}_{ij}iji \ne j)衡量参数之间的信息耦合:耦合越强两参数联合估计的相互干扰越严重,各自边际估计精度越低。

多参数Cramér-Rao下界

Fisher信息矩阵最根本的应用是Cramér-Rao下界的多参数推广。设θ^\hat{\theta}θ\theta的任意无偏估计量,则在矩阵偏序(Loewner序)意义下:

Cov(θ^)In(θ)1=1nI(θ)1\text{Cov}(\hat{\theta}) \succeq \mathcal{I}_n(\theta)^{-1} = \frac{1}{n} \mathcal{I}(\theta)^{-1}

即差值矩阵Cov(θ^)In(θ)1\text{Cov}(\hat{\theta}) - \mathcal{I}_n(\theta)^{-1}半正定。等价地,对任意常数向量aRka \in \mathbb{R}^k,线性组合aTθa^T \theta的任何无偏估计量满足Var(aTθ^)aTIn(θ)1aVar(a^T \hat{\theta}) \ge a^T \mathcal{I}_n(\theta)^{-1} a。特别地,取a=eia = e_i(第ii个标准基向量),参数分量θi\theta_i的方差下界为[In(θ)1]ii[\mathcal{I}_n(\theta)^{-1}]_{ii}

在多参数情形下,达到矩阵形式Cramér-Rao下界的有限样本联合有效估计量极为罕见,通常仅在指数族分布中——例如多元正态分布均值向量在协方差已知时的样本均值——但一旦协方差也未知,MLE便不再在有限样本下无偏。

极大似然估计的渐近分布

Fisher信息矩阵刻画了极大似然估计的渐近行为。在正则条件下MLEθ^MLE\hat{\theta}_{MLE}具有渐近多元正态性

n(θ^MLEθ0)dNk(0,I(θ0)1)\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N_k(0, \mathcal{I}(\theta_0)^{-1})

由此直接构造三种经典大样本检验:Wald检验(利用θ^\hat{\theta}θ0\theta_0的加权距离,权重为信息矩阵)、Score检验Rao检验,利用得分函数在θ0\theta_0处的取值)和似然比检验——三者在原假设下均渐近服从卡方分布χk2\chi^2_k,且在局部备择下渐近等价。

重要应用

最优实验设计:选择实验条件极大化Fisher信息矩阵的标量泛函——D-最优(极大化行列式,极小化置信椭球体积)、A-最优(极小化迹,极小化平均方差)、E-最优(极大化最小特征值)——这些准则为采集信息量最大的数据提供了形式化的决策框架。

Jeffreys先验:在多参数贝叶斯推断中,Jeffreys无信息先验为π(θ)detI(θ)\pi(\theta) \propto \sqrt{\det \mathcal{I}(\theta)}。在参数变换η=g(θ)\eta = g(\theta)下,利用信息矩阵协变律可证π(η)detIη(η)\pi(\eta) \propto \sqrt{\det \mathcal{I}_\eta(\eta)}——Jeffreys先验是唯一对参数化方式完全免疫的无信息先验,因而在客观贝叶斯分析中占据独特地位。

信息几何自然梯度:Amari将Fisher信息矩阵作为黎曼度量引入统计流形理论。在该几何框架下,自然梯度下降I(θ)1θL\mathcal{I}(\theta)^{-1} \nabla_\theta L替代普通梯度,在参数空间中沿最陡的KL散度下降方向移动,在强化学习变分推断中展现出优越的收敛性。

模型辨别:Fisher信息矩阵的条件数行列式提供参数可识别性和模型分辨能力的综合诊断。信息矩阵奇异或条件数极高是参数不可识别或弱识别的核心信号,提示建模者需要施加约束或重新设定模型结构。

总之Fisher信息矩阵将标量Fisher信息的直觉与运算系统地扩展到高维参数空间。其逆矩阵刻画最优估计精度,其行列式刻画联合信息容量,其谱结构揭示参数可识别性——这些性质共同使它成为连接似然理论渐近理论最优实验设计信息几何的核心枢纽,在现代统计理论体系中占有不可替代的基础性地位。