Fisher信息矩阵 (Fisher Information Matrix)
Fisher信息矩阵(Fisher Information Matrix, FIM)是Fisher信息 在多参数情形下的矩阵形式推广,由R.A. Fisher 爵士创立。当统计模型中的未知参数是一个k k k 维向量θ = ( θ 1 , … , θ k ) T \theta = (\theta_1, \ldots, \theta_k)^T θ = ( θ 1 , … , θ k ) T 时,标量的Fisher信息被推广为一个k × k k \times k k × k 的对称矩阵,用以全面刻画样本数据对不同参数分量及其相互关系的综合信息含量。Fisher信息矩阵是推导Cramér-Rao下界 多参数版本的起点,也是极大似然估计 的渐近正态性 、实验设计 最优性准则和信息几何 等理论的共同根基。
定义与计算
设随机变量X X X 的概率密度函数 为f ( x ; θ ) f(x; \theta) f ( x ; θ ) ,其中θ ∈ Θ ⊆ R k \theta \in \Theta \subseteq \mathbb{R}^k θ ∈ Θ ⊆ R k 。对数似然函数 记为ℓ ( θ ; x ) = log f ( x ; θ ) \ell(\theta; x) = \log f(x; \theta) ℓ ( θ ; x ) = log f ( x ; θ ) 。得分函数 (Score Function)定义为对数似然关于参数向量的梯度:
U ( θ ; X ) = ∇ θ ℓ ( θ ; X ) = ( ∂ ℓ ∂ θ 1 , … , ∂ ℓ ∂ θ k ) T U(\theta; X) = \nabla_\theta \ell(\theta; X) = \left(\frac{\partial \ell}{\partial \theta_1}, \ldots, \frac{\partial \ell}{\partial \theta_k}\right)^T U ( θ ; X ) = ∇ θ ℓ ( θ ; X ) = ( ∂ θ 1 ∂ ℓ , … , ∂ θ k ∂ ℓ ) T
在正则条件 下得分函数在真实参数处的期望 为零向量:E [ U ( θ ; X ) ] = 0 E[U(\theta; X)] = 0 E [ U ( θ ; X )] = 0 。Fisher信息矩阵I ( θ ) \mathcal{I}(\theta) I ( θ ) 定义为得分函数的协方差矩阵 :
I ( θ ) = E [ U ( θ ; X ) U ( θ ; X ) T ] = Cov [ U ( θ ; X ) ] \mathcal{I}(\theta) = E[U(\theta; X) U(\theta; X)^T] = \text{Cov}[U(\theta; X)] I ( θ ) = E [ U ( θ ; X ) U ( θ ; X ) T ] = Cov [ U ( θ ; X )]
其第( i , j ) (i, j) ( i , j ) 个元素为:
I i j ( θ ) = E [ ∂ ℓ ∂ θ i ⋅ ∂ ℓ ∂ θ j ] \mathcal{I}_{ij}(\theta) = E\left[ \frac{\partial \ell}{\partial \theta_i} \cdot \frac{\partial \ell}{\partial \theta_j} \right] I ij ( θ ) = E [ ∂ θ i ∂ ℓ ⋅ ∂ θ j ∂ ℓ ]
在二阶可导性假设下存在一个计算上更为方便的形式——利用对数似然的Hessian矩阵 :
I i j ( θ ) = − E [ ∂ 2 ℓ ( θ ; X ) ∂ θ i ∂ θ j ] \mathcal{I}_{ij}(\theta) = -E\left[ \frac{\partial^2 \ell(\theta; X)}{\partial \theta_i \partial \theta_j} \right] I ij ( θ ) = − E [ ∂ θ i ∂ θ j ∂ 2 ℓ ( θ ; X ) ]
即Fisher信息矩阵等于对数似然在θ \theta θ 处期望负Hessian矩阵:I ( θ ) = − E [ H ℓ ( θ ) ] \mathcal{I}(\theta) = -E[H_\ell(\theta)] I ( θ ) = − E [ H ℓ ( θ )] 。该形式揭示了一个核心几何直觉:Fisher信息矩阵衡量对数似然曲面在参数真值附近的期望曲率 ——曲率越大,似然越尖锐,参数估计越精确;曲率越小,似然越平坦,数据对参数的约束力越弱。
对于独立同分布 样本X 1 , … , X n X_1, \ldots, X_n X 1 , … , X n ,Fisher信息矩阵具有可加性 :I n ( θ ) = n ⋅ I ( θ ) \mathcal{I}_n(\theta) = n \cdot \mathcal{I}(\theta) I n ( θ ) = n ⋅ I ( θ ) ——样本量扩大n n n 倍,总信息量线性增长。
实践中常区分两个概念。期望Fisher信息 :上述基于分布取期望的定义I ( θ ) \mathcal{I}(\theta) I ( θ ) ,在理论分析中处处可见。观测Fisher信息 :在具体观测数据x x x 下直接计算对数似然的负Hessian,即I ^ ( θ ) = − ∂ 2 ℓ ( θ ; x ) / ∂ θ ∂ θ T \hat{\mathcal{I}}(\theta) = -\partial^2 \ell(\theta; x) / \partial \theta \partial \theta^T I ^ ( θ ) = − ∂ 2 ℓ ( θ ; x ) / ∂ θ ∂ θ T ——Efron和Hinkley的研究显示有限样本中观测信息矩阵往往更准确地反映似然在当前数据下的实际曲率,因而在推断中被广泛采用。
基本性质
Fisher信息矩阵具有一系列深刻的数学性质。
对称性与半正定性 :由混合偏导数的对称性,I i j = I j i \mathcal{I}_{ij} = \mathcal{I}_{ji} I ij = I ji ,信息矩阵是对称矩阵 。对任意非零向量a ∈ R k a \in \mathbb{R}^k a ∈ R k ,二次型a T I ( θ ) a = E [ ( a T U ) 2 ] ≥ 0 a^T \mathcal{I}(\theta) a = E[(a^T U)^2] \ge 0 a T I ( θ ) a = E [( a T U ) 2 ] ≥ 0 ,故信息矩阵半正定 。零特征值 意味着存在参数空间的某个方向,数据完全不能提供区分信息——此时存在不可识别的参数组合,建模者需要重新审视参数化方式。
参数变换下的协变性 :若η = g ( θ ) \eta = g(\theta) η = g ( θ ) 是一一可微的参数变换,其Jacobian矩阵 为J = ∂ θ / ∂ η T J = \partial \theta / \partial \eta^T J = ∂ θ / ∂ η T ,则Fisher信息矩阵的变换规则为I η ( η ) = J T I θ ( θ ) J \mathcal{I}_\eta(\eta) = J^T \mathcal{I}_\theta(\theta) J I η ( η ) = J T I θ ( θ ) J 。这一性质保证了信息量的内在性——不同参数化方式下信息的实质内容不变,仅矩阵表示按张量变换。正是这一几何不变性使Fisher信息矩阵成为信息几何 中黎曼度量 的自然候选,Shun'ichi Amari 将统计模型视为以I ( θ ) \mathcal{I}(\theta) I ( θ ) 为度量的黎曼流形 ,开创了统计与微分几何 的深度交叉。
信息矩阵的逆与偏相关 :I ( θ ) − 1 \mathcal{I}(\theta)^{-1} I ( θ ) − 1 的对角元素[ I ( θ ) − 1 ] i i [\mathcal{I}(\theta)^{-1}]_{ii} [ I ( θ ) − 1 ] ii 给出参数分量θ i \theta_i θ i 的估计精度下界。注意[ I − 1 ] i i ≠ 1 / I i i [\mathcal{I}^{-1}]_{ii} \ne 1/\mathcal{I}_{ii} [ I − 1 ] ii = 1/ I ii ——矩阵求逆使不同参数的估计精度产生交叉约束。非对角元素I i j \mathcal{I}_{ij} I ij (i ≠ j i \ne j i = j )衡量参数之间的信息耦合 :耦合越强两参数联合估计的相互干扰越严重,各自边际估计精度越低。
多参数Cramér-Rao下界
Fisher信息矩阵最根本的应用是Cramér-Rao下界 的多参数推广。设θ ^ \hat{\theta} θ ^ 为θ \theta θ 的任意无偏估计量 ,则在矩阵偏序 (Loewner序)意义下:
Cov ( θ ^ ) ⪰ I n ( θ ) − 1 = 1 n I ( θ ) − 1 \text{Cov}(\hat{\theta}) \succeq \mathcal{I}_n(\theta)^{-1} = \frac{1}{n} \mathcal{I}(\theta)^{-1} Cov ( θ ^ ) ⪰ I n ( θ ) − 1 = n 1 I ( θ ) − 1
即差值矩阵Cov ( θ ^ ) − I n ( θ ) − 1 \text{Cov}(\hat{\theta}) - \mathcal{I}_n(\theta)^{-1} Cov ( θ ^ ) − I n ( θ ) − 1 半正定。等价地,对任意常数向量a ∈ R k a \in \mathbb{R}^k a ∈ R k ,线性组合a T θ a^T \theta a T θ 的任何无偏估计量满足V a r ( a T θ ^ ) ≥ a T I n ( θ ) − 1 a Var(a^T \hat{\theta}) \ge a^T \mathcal{I}_n(\theta)^{-1} a Va r ( a T θ ^ ) ≥ a T I n ( θ ) − 1 a 。特别地,取a = e i a = e_i a = e i (第i i i 个标准基向量),参数分量θ i \theta_i θ i 的方差下界为[ I n ( θ ) − 1 ] i i [\mathcal{I}_n(\theta)^{-1}]_{ii} [ I n ( θ ) − 1 ] ii 。
在多参数情形下,达到矩阵形式Cramér-Rao下界的有限样本联合有效估计量极为罕见,通常仅在指数族分布 中——例如多元正态分布 均值向量在协方差已知时的样本均值——但一旦协方差也未知,MLE便不再在有限样本下无偏。
极大似然估计的渐近分布
Fisher信息矩阵刻画了极大似然估计 的渐近行为。在正则条件下MLEθ ^ M L E \hat{\theta}_{MLE} θ ^ M L E 具有渐近多元正态性 :
n ( θ ^ M L E − θ 0 ) → d N k ( 0 , I ( θ 0 ) − 1 ) \sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N_k(0, \mathcal{I}(\theta_0)^{-1}) n ( θ ^ M L E − θ 0 ) d N k ( 0 , I ( θ 0 ) − 1 )
由此直接构造三种经典大样本检验:Wald检验 (利用θ ^ \hat{\theta} θ ^ 与θ 0 \theta_0 θ 0 的加权距离,权重为信息矩阵)、Score检验 (Rao检验 ,利用得分函数在θ 0 \theta_0 θ 0 处的取值)和似然比检验 ——三者在原假设下均渐近服从卡方分布 χ k 2 \chi^2_k χ k 2 ,且在局部备择下渐近等价。
重要应用
最优实验设计 :选择实验条件极大化Fisher信息矩阵的标量泛函 ——D-最优(极大化行列式,极小化置信椭球体积)、A-最优(极小化迹,极小化平均方差)、E-最优(极大化最小特征值)——这些准则为采集信息量最大的数据提供了形式化的决策框架。
Jeffreys先验 :在多参数贝叶斯推断中,Jeffreys无信息先验为π ( θ ) ∝ det I ( θ ) \pi(\theta) \propto \sqrt{\det \mathcal{I}(\theta)} π ( θ ) ∝ det I ( θ ) 。在参数变换η = g ( θ ) \eta = g(\theta) η = g ( θ ) 下,利用信息矩阵协变律可证π ( η ) ∝ det I η ( η ) \pi(\eta) \propto \sqrt{\det \mathcal{I}_\eta(\eta)} π ( η ) ∝ det I η ( η ) ——Jeffreys先验是唯一对参数化方式完全免疫的无信息先验,因而在客观贝叶斯分析中占据独特地位。
信息几何 与自然梯度 :Amari将Fisher信息矩阵作为黎曼度量引入统计流形理论。在该几何框架下,自然梯度下降 以I ( θ ) − 1 ∇ θ L \mathcal{I}(\theta)^{-1} \nabla_\theta L I ( θ ) − 1 ∇ θ L 替代普通梯度,在参数空间中沿最陡的KL散度下降方向移动,在强化学习 和变分推断 中展现出优越的收敛性。
模型辨别 :Fisher信息矩阵的秩 、条件数 和行列式 提供参数可识别性和模型分辨能力的综合诊断。信息矩阵奇异 或条件数极高是参数不可识别或弱识别的核心信号,提示建模者需要施加约束或重新设定模型结构。
总之Fisher信息矩阵将标量Fisher信息的直觉与运算系统地扩展到高维参数空间。其逆矩阵刻画最优估计精度,其行列式刻画联合信息容量,其谱结构揭示参数可识别性——这些性质共同使它成为连接似然理论 、渐近理论 、最优实验设计 和信息几何 的核心枢纽,在现代统计理论体系中占有不可替代的基础性地位。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。