ARTICLE

Fisher信息量

Fisher信息量 (Fisher Information) Fisher信息量(Fisher Information)是数理统计学和信息论中的一个核心概念,由R.A. Fisher爵士提出。它从根本上衡量了一个可观测随机变量X中包含多少关于其概率分布中未知参数 的信息。直觉上Fisher信息量可理解为似然函数在参数真值附近的尖锐程度或曲率——信息量大意味着

浏览 2 更新 2025-11-03

Fisher信息量 (Fisher Information)

Fisher信息量(Fisher Information)是数理统计学信息论中的一个核心概念,由R.A. Fisher爵士提出。它从根本上衡量了一个可观测随机变量XX中包含多少关于其概率分布中未知参数θ\theta的信息。直觉上Fisher信息量可理解为似然函数在参数真值附近的尖锐程度或曲率——信息量大意味着对数似然函数最大似然估计值附近非常陡峭,微小参数变动导致观测数据的概率显著变化,因此估计非常精确;信息量小则对数似然平坦,许多不同参数值都能较好解释数据,估计具有较大不确定性。

定义与计算

设随机变量XX的概率密度函数为f(x;θ)f(x;\theta)。对数似然为(θ;x)=logf(x;θ)\ell(\theta;x) = \log f(x;\theta)得分函数S(θ;X)=(θ;X)/θS(\theta;X) = \partial \ell(\theta;X)/\partial \theta——在正则条件下得分函数在参数真值处的期望为零E[S(θ0;X)]=0E[S(\theta_0;X)] = 0,表明平均而言得分函数指向参数真值。

Fisher信息量基于得分函数方差定义:I(θ)=Var[S(θ;X)]=E[(logf(X;θ)/θ)2]I(\theta) = Var[S(\theta;X)] = E[(\partial \log f(X;\theta)/\partial \theta)^2]。等效定义通过对数似然二阶导数:I(θ)=E[2logf(X;θ)/θ2]I(\theta) = -E[\partial^2 \log f(X;\theta)/\partial \theta^2]——这个形式计算更方便,且直观地将信息量与对数似然的期望曲率联系:曲率越大信息量越丰富。例如正态分布N(μ,σ2)N(\mu, \sigma^2)σ2\sigma^2已知)下,logf=log(2πσ)(xμ)2/(2σ2)\log f = -\log(\sqrt{2\pi}\sigma) - (x-\mu)^2/(2\sigma^2),二阶导数为1/σ2-1/\sigma^2,因此I(μ)=1/σ2I(\mu) = 1/\sigma^2——分布方差越小信息量越大、估计愈精确。对于独立同分布样本,Fisher信息具有可加性:In(θ)=nI(θ)I_n(\theta) = n \cdot I(\theta)

统计推断中的核心作用

Fisher信息量在统计推断中有三个核心应用。第一,估计精度下界Cramér-Rao下界指出任何无偏估计量的方差不低于1/In(θ)1/I_n(\theta)——信息量定义了估计精度的理论上限。达到该下界的为有效估计量。第二,极大似然估计的渐近性质:MLE的渐近方差为1/In(θ)=1/[nI(θ)]1/I_n(\theta) = 1/[n I(\theta)],即n(θ^MLEθ)dN(0,1/I(θ))\sqrt{n}(\hat{\theta}_{MLE} - \theta) \xrightarrow{d} N(0, 1/I(\theta))——在大样本下MLE达到CRLB、为渐近有效估计量。第三,实验设计与信息优化:在最优实验设计中选择实验条件以最大化Fisher信息(或信息矩阵的某个标量泛函),从而实现最高参数估计精度。

多参数情况下Fisher信息推广为Fisher信息矩阵,其(i,j)(i,j)元素为Iij(θ)=E[2logf/θiθj]I_{ij}(\theta) = -E[\partial^2 \log f / \partial \theta_i \partial \theta_j]。信息矩阵的逆给出多参数CRLB。Fisher信息量作为衡量数据信息含量的核心指标,是连接似然理论渐近理论和最优估计的枢纽,在整个现代统计学中占据基础性地位。