Fisher信息量 (Fisher Information)
Fisher信息量(Fisher Information)是数理统计学和信息论中的一个核心概念,由R.A. Fisher爵士提出。它从根本上衡量了一个可观测随机变量X中包含多少关于其概率分布中未知参数θ的信息。直觉上Fisher信息量可理解为似然函数在参数真值附近的尖锐程度或曲率——信息量大意味着对数似然函数在最大似然估计值附近非常陡峭,微小参数变动导致观测数据的概率显著变化,因此估计非常精确;信息量小则对数似然平坦,许多不同参数值都能较好解释数据,估计具有较大不确定性。
定义与计算
设随机变量X的概率密度函数为f(x;θ)。对数似然为ℓ(θ;x)=logf(x;θ),得分函数为S(θ;X)=∂ℓ(θ;X)/∂θ——在正则条件下得分函数在参数真值处的期望为零E[S(θ0;X)]=0,表明平均而言得分函数指向参数真值。
Fisher信息量基于得分函数方差定义:I(θ)=Var[S(θ;X)]=E[(∂logf(X;θ)/∂θ)2]。等效定义通过对数似然二阶导数:I(θ)=−E[∂2logf(X;θ)/∂θ2]——这个形式计算更方便,且直观地将信息量与对数似然的期望曲率联系:曲率越大信息量越丰富。例如正态分布N(μ,σ2)(σ2已知)下,logf=−log(2πσ)−(x−μ)2/(2σ2),二阶导数为−1/σ2,因此I(μ)=1/σ2——分布方差越小信息量越大、估计愈精确。对于独立同分布样本,Fisher信息具有可加性:In(θ)=n⋅I(θ)。
统计推断中的核心作用
Fisher信息量在统计推断中有三个核心应用。第一,估计精度下界:Cramér-Rao下界指出任何无偏估计量的方差不低于1/In(θ)——信息量定义了估计精度的理论上限。达到该下界的为有效估计量。第二,极大似然估计的渐近性质:MLE的渐近方差为1/In(θ)=1/[nI(θ)],即n(θ^MLE−θ)dN(0,1/I(θ))——在大样本下MLE达到CRLB、为渐近有效估计量。第三,实验设计与信息优化:在最优实验设计中选择实验条件以最大化Fisher信息(或信息矩阵的某个标量泛函),从而实现最高参数估计精度。
多参数情况下Fisher信息推广为Fisher信息矩阵,其(i,j)元素为Iij(θ)=−E[∂2logf/∂θi∂θj]。信息矩阵的逆给出多参数CRLB。Fisher信息量作为衡量数据信息含量的核心指标,是连接似然理论、渐近理论和最优估计的枢纽,在整个现代统计学中占据基础性地位。