ARTICLE

Fisher信息

Fisher信息 (Fisher Information) Fisher信息(Fisher Information),以其提出者Ronald Fisher爵士命名,是数理统计学和信息论中的一个核心概念。它量化了一个可观测随机变量X所携带的关于其所属概率分布中未知参数 的信息量。Fisher信息衡量了似然函数对参数的敏感程度——信息量高意味着对数似然函数在真实

浏览 6 更新 2025-11-16

Fisher信息 (Fisher Information)

Fisher信息(Fisher Information),以其提出者Ronald Fisher爵士命名,是数理统计学信息论中的一个核心概念。它量化了一个可观测随机变量XX所携带的关于其所属概率分布中未知参数θ\theta的信息量。Fisher信息衡量了似然函数对参数的敏感程度——信息量高意味着对数似然函数在真实参数值附近非常陡峭,可以更精确地估计参数;信息量低则对数似然平坦,数据对参数约束力弱、估计不确定性大。它是理解参数估计理论和Cramér-Rao下界的基石。

定义与计算方法

设随机变量XX的概率密度函数为f(x;θ)f(x; \theta)。对数似然函数为(θ;x)=logf(x;θ)\ell(\theta; x) = \log f(x; \theta)得分函数(Score Function)是对数似然关于参数的一阶偏导数V(x;θ)=(θ;x)/θV(x; \theta) = \partial \ell(\theta; x)/\partial \theta——在正则条件下得分函数的期望为零:E[V(X;θ)]=0E[V(X; \theta)] = 0

Fisher信息I(θ)I(\theta)定义为得分函数的方差I(θ)=Var[V(X;θ)]=E[(logf(X;θ)/θ)2]I(\theta) = Var[V(X; \theta)] = E[(\partial \log f(X; \theta)/\partial \theta)^2]。等效计算公式通过对数似然的二阶导数:I(θ)=E[2logf(X;θ)/θ2]I(\theta) = -E[\partial^2 \log f(X; \theta)/\partial \theta^2]——这个形式计算更方便,且直观地将Fisher信息与对数似然的期望曲率联系起来:曲率越大信息量越大。

对于独立同分布式样本X1,,XnX_1, \ldots, X_n,Fisher信息具有可加性In(θ)=nI(θ)I_n(\theta) = n \cdot I(\theta)——从数据中获取的信息量与样本大小成正比。

关键应用与直观解释

Cramér-Rao下界(CRLB)是Fisher信息最直接的应用。对任何无偏估计量θ^\hat{\theta},其方差满足Var(θ^)1/In(θ)=1/[nI(θ)]Var(\hat{\theta}) \ge 1/I_n(\theta) = 1/[n I(\theta)]——Fisher信息定义了参数估计所能达到的最佳精度上界。达到该下界的估计量称为有效估计量,充分利用了数据中包含的关于参数的全部信息。

极大似然估计(MLE)的渐近性质由Fisher信息刻画。在正则条件下,MLEθ^MLE\hat{\theta}_{MLE}具有渐近正态性:n(θ^MLEθ0)dN(0,1/I(θ0))\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N(0, 1/I(\theta_0)),MLE的渐近方差恰为Fisher信息倒数——在大样本下MLE是渐近有效的。

直觉理解:得分函数在真实参数附近衡量了似然的梯度——样本携带更多信息意味着对数似然更陡峭,估计精度更高。在实验设计中,Fisher信息指导如何选择实验条件最大化参数估计的信息增益。在贝叶斯推断中,Fisher信息与Jeffreys先验密切相关——π(θ)I(θ)\pi(\theta) \propto \sqrt{I(\theta)}将先验设为信息量的平方根,使参数变换下先验具有不变性。在多参数情况下Fisher信息推广为Fisher信息矩阵,其逆矩阵的Cramér-Rao下界适用于多参数联合估计。Fisher信息作为联系似然理论渐近理论和最优估计的枢纽概念,在统计理论的完整体系中占有不可替代的地位。