ARTICLE

费希尔信息量

费希尔信息量(Fisher Information)是数理统计中衡量随机变量所含未知参数信息量的核心概念,由英国统计学家罗纳德·费希尔在20世纪20年代系统发展。它刻画了观测数据对未知参数的辨识能力——信息量越大,意味着参数估计的方差越小、估计越精确。费希尔信息量不仅是克拉美-拉奥下界的理论基础,也是最大似然估计渐近方差、试验设计与贝叶斯先验选择的重要判据,

浏览 0 更新 2025-12-03

费希尔信息量(Fisher Information)是数理统计中衡量随机变量所含未知参数信息量的核心概念,由英国统计学家罗纳德·费希尔在20世纪20年代系统发展。它刻画了观测数据对未知参数的辨识能力——信息量越大,意味着参数估计的方差越小、估计越精确。费希尔信息量不仅是克拉美-拉奥下界的理论基础,也是最大似然估计渐近方差、试验设计与贝叶斯先验选择的重要判据,在统计推断、信息几何与神经科学中均有广泛应用。

一、定义与数学形式

费希尔信息量的定义基于得分函数(Score Function)。设 XX 为随机变量,其概率密度函数(或概率质量函数)为 f(x;θ)f(x;\theta),参数 θ\theta 为一维实数。得分函数定义为对数似然函数关于参数的一阶导数:

S(θ)=θlnf(X;θ)S(\theta) = \frac{\partial}{\partial\theta} \ln f(X;\theta)

在正则条件下,得分函数的期望为零:E[S(θ)]=0\mathbb{E}[S(\theta)] = 0。费希尔信息量 I(θ)I(\theta) 定义为得分函数的方差:

I(θ)=Var[S(θ)]=E[(θlnf(X;θ))2]I(\theta) = \mathrm{Var}[S(\theta)] = \mathbb{E}\left[\left(\frac{\partial}{\partial\theta} \ln f(X;\theta)\right)^2\right]

在二阶可导条件下,存在等价表达式:

I(θ)=E[2θ2lnf(X;θ)]I(\theta) = -\mathbb{E}\left[\frac{\partial^2}{\partial\theta^2} \ln f(X;\theta)\right]

后一形式在实际计算中更为常用——它将对数似然函数的曲率期望与信息量联系起来:对数似然曲面越"陡峭",参数的信息量越大,估计越精确。直观理解,若对数似然函数在参数真值附近呈尖锐峰值,则观测数据所携带的参数信息极为丰富;若曲线平坦宽广,则数据对参数取值几乎"无话可说"。

对于多维参数向量 θ=(θ1,,θk)T\boldsymbol{\theta} = (\theta_1, \ldots, \theta_k)^T,费希尔信息矩阵(Fisher Information Matrix)的 (i,j)(i, j) 元素为:

I(θ)ij=E[θilnf(X;θ)θjlnf(X;θ)]I(\theta)_{ij} = \mathbb{E}\left[\frac{\partial}{\partial\theta_i} \ln f(X;\boldsymbol{\theta}) \cdot \frac{\partial}{\partial\theta_j} \ln f(X;\boldsymbol{\theta})\right]

该矩阵对称半正定,其逆矩阵即为最大似然估计的渐近协方差矩阵。

二、克拉美-拉奥下界

费希尔信息量的核心应用体现在克拉美-拉奥下界(Cramér-Rao Lower Bound, CRLB)中。该定理指出,在正则条件下,参数 θ\theta 的任意无偏估计量 θ^\hat{\theta} 的方差满足:

Var(θ^)1nI(θ)\mathrm{Var}(\hat{\theta}) \geq \frac{1}{n I(\theta)}

其中 nn 为样本量。这意味着费希尔信息量从理论上给出了参数估计精度的天花板——没有任何无偏估计能超越这一下界。当一个估计量的方差恰好等于克拉美-拉奥下界时,称其为有效估计量(Efficient Estimator)。最大似然估计在渐近意义上达到这一下界,因此被广泛视为最优估计方法。

以伯努利分布为例。设 XBernoulli(p)X \sim \mathrm{Bernoulli}(p),其对数似然函数为 lnf(x;p)=xlnp+(1x)ln(1p)\ln f(x;p) = x\ln p + (1-x)\ln(1-p)。二阶导数为 2lnf/p2=x/p2(1x)/(1p)2\partial^2 \ln f / \partial p^2 = -x/p^2 - (1-x)/(1-p)^2,取期望得 I(p)=1/[p(1p)]I(p) = 1/[p(1-p)]。克拉美-拉奥下界为 p(1p)/np(1-p)/n,恰好等于样本均值的方差——这意味着样本均值 Xˉ\bar{X}pp 的有效估计量。类似地,正态分布 N(μ,σ2)N(\mu, \sigma^2) 中均值 μ\mu 的费希尔信息量为 I(μ)=1/σ2I(\mu) = 1/\sigma^2,下界为 σ2/n\sigma^2/n,样本均值同样达到这一下界。

三、分布实例

常见分布族的费希尔信息量可通过直接计算对数似然的二阶矩获得。

正态分布:设 XN(μ,σ2)X \sim N(\mu, \sigma^2),其中 σ2\sigma^2 已知。对数似然函数为 lnf=12ln(2πσ2)(xμ)2/(2σ2)\ln f = -\frac{1}{2}\ln(2\pi\sigma^2) - (x-\mu)^2/(2\sigma^2)。关于 μ\mu 的二阶导数为 1/σ2-1/\sigma^2,取期望得 I(μ)=1/σ2I(\mu) = 1/\sigma^2——信息量随方差增大而减小,直观上合理。若 μ\mu 已知而 σ2\sigma^2 未知,则关于方差的信息量为 I(σ2)=1/(2σ4)I(\sigma^2) = 1/(2\sigma^4)

泊松分布:设 XPoisson(λ)X \sim \mathrm{Poisson}(\lambda),对数似然为 lnf=xlnλλlnx!\ln f = x\ln\lambda - \lambda - \ln x!。二阶导数为 x/λ2-x/\lambda^2,期望为 λ/λ2=1/λ-\lambda/\lambda^2 = -1/\lambda,故 I(λ)=1/λI(\lambda) = 1/\lambda。信息量随均值增大而减小,反映泊松分布在均值较小时对参数变化更为敏感。

指数分布:设 XExponential(λ)X \sim \mathrm{Exponential}(\lambda),密度函数 f(x;λ)=λeλxf(x;\lambda) = \lambda e^{-\lambda x},对数似然为 lnf=lnλλx\ln f = \ln\lambda - \lambda x。二阶导数为 1/λ2-1/\lambda^2,得 I(λ)=1/λ2I(\lambda) = 1/\lambda^2。若以尺度参数 θ=1/λ\theta = 1/\lambda 为参数,则 I(θ)=1/θ2I(\theta) = 1/\theta^2

二项分布:设 XBinomial(n,p)X \sim \mathrm{Binomial}(n, p),其信息量为 I(p)=n/[p(1p)]I(p) = n/[p(1-p)],是单次伯努利试验信息量的 nn 倍——这正是独立同分布性质的自然推论:独立观测的信息量具有可加性。

四、性质与重要结论

费希尔信息量具有若干关键性质,在统计推断中扮演基础性角色。

可加性:若 X1,X2,,XnX_1, X_2, \ldots, X_n 独立同分布于 f(x;θ)f(x;\theta),则整个样本的信息量为单个观测信息量的 nn 倍:In(θ)=nI1(θ)I_n(\theta) = n I_1(\theta)。这一性质解释了为何增大样本量总能提高估计精度,也使得信息量在试验设计中成为确定样本规模的直接依据。

参数变换下的行为:若 ϕ=g(θ)\phi = g(\theta) 是参数的可微变换,则信息量按平方导数缩放:I(ϕ)=I(θ)/[g(θ)]2I(\phi) = I(\theta) / [g'(\theta)]^2。这意味着参数再参数化会改变信息量的绝对值,但克拉美-拉奥下界的相对大小在变换后保持一致性。这一性质在构建不变先验(Jeffreys先验)中起到关键作用。

Jeffreys先验:在贝叶斯统计中,Jeffreys先验定义为 π(θ)I(θ)\pi(\theta) \propto \sqrt{I(\theta)}。该先验在参数再参数化下保持不变(即具有参数化不变性),被视为"无信息"先验的客观选择。例如,对于正态分布均值 μ\muI(μ)=1/σ2I(\mu) = 1/\sigma^2 为常数,故Jeffreys先验为均匀先验;对于伯努利分布的成功概率 ppI(p)=1/[p(1p)]I(p) = 1/[p(1-p)],Jeffreys先验为 π(p)1/p(1p)\pi(p) \propto 1/\sqrt{p(1-p)},即贝塔分布 Beta(1/2,1/2)\mathrm{Beta}(1/2, 1/2)

渐近正态性:在正则条件下,最大似然估计量 θ^n\hat{\theta}_n 满足渐近正态性:n(θ^nθ)dN(0,1/I(θ))\sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} N(0, 1/I(\theta))。这意味着费希尔信息量的倒数直接决定了最大似然估计的渐近方差,为构建置信区间与假设检验提供了理论基础。

五、应用与扩展

费希尔信息量的应用横跨多个学科领域。在试验设计中,研究者通过最大化信息量来选择最优实验方案——D-最优设计选取最大化信息矩阵行列式的参数组合,A-最优设计最小化参数估计的方差之和,这些准则均以费希尔信息矩阵为核心工具。在生物统计学中,药剂剂量-反应模型的信息量分析帮助确定最有效的给药方案,以最少的实验动物获取最大的统计推断精度。

在信息几何领域,费希尔信息矩阵被用作统计流形上的黎曼度量,定义了概率分布空间中的距离与曲率。这一视角将统计推断问题转化为几何问题:最大似然估计对应流形上的投影,自然梯度下降则利用费希尔信息矩阵调整学习率,在神经网络训练中加速收敛。在神经科学中,费希尔信息量用于量化神经元群体编码的精度——通过计算神经放电率模型的信息量,研究者能推断感觉刺激的表征极限。

在量子统计中,量子费希尔信息量(Quantum Fisher Information)将经典概念推广至量子系统,用于刻画量子态对参数的敏感度,是量子计量学中测量精度的核心上界。在量子增强传感和引力波探测领域,量子费希尔信息量直接决定了传感器能达到的极限精度。

六、局限与注意事项

费希尔信息量虽强大,但应用时需注意其局限。首先,正则条件(密度函数定义域不依赖参数、对数似然函数可微且积分与求导可交换)并非总是满足。均匀分布 U(0,θ)U(0, \theta) 的定义域依赖于参数 θ\theta,此时正则条件失效,克拉美-拉奥下界不适用。其次,当模型参数近边界时(如伯努利分布的 pp 接近0或1),信息量趋于无穷,但仍需有限样本下的精确分析。此外,模型误设程度较高时,基于费希尔信息量的渐近推论可能产生误导,需结合稳健标准误进行调整。

总结

费希尔信息量是统计推断的理论基石,它从信息论视角量化了数据对未知参数的辨识能力。无论是克拉美-拉奥下界赋予参数估计的精度上限,还是最大似然估计的渐近方差、Jeffreys先验的参数化不变性,抑或信息几何中作为黎曼度量的几何诠释,费希尔信息量均贯穿于统计学从基础理论到前沿应用的各个层面。理解费希尔信息量,是深入掌握现代统计推断、试验设计与机器学习方法论不可或缺的关键一步。