ARTICLE

费雪信息量

费雪信息量 (Fisher Information) 费雪信息量 (Fisher Information) 是统计学和信息论中的一个核心概念,由统计学家 R.A. Fisher 在 1920 年代提出。它量化了一组观测数据所包含的、关于某个未知参数 的"信息"的多少。更精确地说,费雪信息量衡量的是 似然函数 L( ) 在真实参数值附近的"陡峭程度"——似然函

浏览 9 更新 2026-01-20

费雪信息量 (Fisher Information)

费雪信息量 (Fisher Information)统计学信息论中的一个核心概念,由统计学家 R.A. Fisher 在 1920 年代提出。它量化了一组观测数据所包含的、关于某个未知参数 θ \theta 的"信息"的多少。更精确地说,费雪信息量衡量的是 似然函数 L(θ) L(\theta) 在真实参数值附近的"陡峭程度"——似然函数在极大值附近越尖锐,表明数据对参数值的约束越强,我们对该参数的知识也就越确定,信息量就越大。

直观上,如果观测数据对参数 θ \theta 非常敏感(即 θ \theta 的微小变化会引起似然度的剧烈变化),则费雪信息量很大;反之,如果数据对 θ \theta 的变化"漠不关心",则费雪信息量很小,我们很难从数据中精确估计该参数。

定义与数学表达

设随机变量 X X 具有概率密度函数(或概率质量函数)f(xθ) f(x|\theta) ,其中 θ \theta 是一个未知的实数参数。假设 f(xθ) f(x|\theta) 满足一定的正则条件(可微性、积分与微分可交换等)。记对数似然函数为 (θx)=logf(xθ) \ell(\theta | x) = \log f(x|\theta) 。则 得分函数 (Score Function) 定义为对数似然对参数的一阶导数:

S(θ)=(θx)θ=θlogf(xθ)S(\theta) = \frac{\partial \ell(\theta | x)}{\partial \theta} = \frac{\partial}{\partial\theta} \log f(x|\theta)

费雪信息量 I(θ) \mathcal{I}(\theta) 定义为得分函数的方差:

I(θ)=Var[S(θ)]=E[(θlogf(Xθ))2|θ]\mathcal{I}(\theta) = \operatorname{Var}\left[ S(\theta) \right] = \mathbb{E}\left[ \left( \frac{\partial}{\partial\theta} \log f(X|\theta) \right)^2 \middle| \, \theta \right]

在正则条件下,得分函数的期望为零,即 E[S(θ)]=0 \mathbb{E}[S(\theta)] = 0 ,因此费雪信息量也等于得分函数二阶矩的期望。

一个等价的、经常更便于计算的表达式是:

I(θ)=E[2θ2logf(Xθ)|θ]\mathcal{I}(\theta) = -\mathbb{E}\left[ \frac{\partial^2}{\partial\theta^2} \log f(X|\theta) \,\middle|\, \theta \right]

这个形式将信息量与对数似然函数在极值点附近的"曲率"联系起来:曲率越大(越尖锐),信息量越大。

独立同分布样本的情况:若 X1,X2,,Xn X_1, X_2, \dots, X_n 是 i.i.d. 样本,则整个样本的费雪信息量具有可加性

In(θ)=nI1(θ)\mathcal{I}_n(\theta) = n \cdot \mathcal{I}_1(\theta)

其中 I1(θ) \mathcal{I}_1(\theta) 是单个观测所携带的费雪信息。这意味着信息量随样本量线性增长,与直觉相符——更多的数据携带更多关于参数的信息。

核心性质与 Cramér-Rao 下界

费雪信息量在统计推断中最重要的作用是通过 Cramér-Rao 不等式(或称 Cramér-Rao 下界,CRLB)来体现。该不等式为任何无偏估计量方差设定了一个下界:

Var(θ^)1I(θ)\operatorname{Var}(\hat{\theta}) \geq \frac{1}{\mathcal{I}(\theta)}

更一般地,对于可微函数 g(θ) g(\theta) 的任意无偏估计量 T T ,有:

Var(T)[g(θ)]2I(θ)\operatorname{Var}(T) \geq \frac{[g'(\theta)]^2}{\mathcal{I}(\theta)}

这个不等式的意义极为深远:它告诉我们,无论我们设计多么精巧的估计方法,都无法使估计量的方差低于费雪信息量的倒数。费雪信息量越大,我们就能越精确地估计参数。当某个估计量的方差恰好等于 Cramér-Rao 下界时,我们称其为 有效估计量 (Efficient Estimator)

注意:Cramér-Rao 下界只适用于无偏估计量。对于有偏估计量,存在更一般的信息不等式。

与最大似然估计的联系

费雪信息量与 最大似然估计 (Maximum Likelihood Estimation, MLE) 有着深刻的内在联系:

  1. 渐近正态性:在相当一般的正则条件下,MLE θ^MLE \hat{\theta}_{\text{MLE}} 具有渐近正态性: \[ \sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta_0) \xrightarrow{d} \mathcal{N}\left(0, \frac{1}{\mathcal{I}_1(\theta_0)}\right) \] 其中 θ0 \theta_0 是真实参数。这说明在大样本下,MLE 的方差趋近于费雪信息量的倒数,即 MLE 是渐近有效的。
  2. Fisher 得分迭代:在实际计算 MLE 时,常使用 Fisher 得分算法 (Fisher Scoring),这是一种牛顿-拉弗森方法的变体,利用费雪信息量矩阵替代 Hessian 矩阵进行迭代更新: \[ \theta^{(k+1)} = \theta^{(k)} + \mathcal{I}(\theta^{(k)})^{-1} \cdot S(\theta^{(k)}) \]

多参数情形:费雪信息矩阵

当参数 θ=(θ1,θ2,,θp) \boldsymbol{\theta} = (\theta_1, \theta_2, \dots, \theta_p)^\top 是一个向量时,费雪信息量推广为 费雪信息矩阵 (Fisher Information Matrix),其第 (i,j) (i, j) 个元素为:

Iij(θ)=E[θiθj|θ]=E[2θiθj|θ]\mathcal{I}_{ij}(\boldsymbol{\theta}) = \mathbb{E}\left[ \frac{\partial \ell}{\partial \theta_i} \cdot \frac{\partial \ell}{\partial \theta_j} \middle| \, \boldsymbol{\theta} \right] = -\mathbb{E}\left[ \frac{\partial^2 \ell}{\partial \theta_i \partial \theta_j} \middle| \, \boldsymbol{\theta} \right]

在多参数情形下,Cramér-Rao 下界推广为矩阵不等式:对于任意无偏估计量 θ^ \hat{\boldsymbol{\theta}}

Cov(θ^)I(θ)1\operatorname{Cov}(\hat{\boldsymbol{\theta}}) \succeq \mathcal{I}(\boldsymbol{\theta})^{-1}

即协方差矩阵与费雪信息矩阵逆的差为半正定矩阵。这意味着每个参数 θi \theta_i 的估计方差至少为 [I(θ)1]ii [\mathcal{I}(\boldsymbol{\theta})^{-1}]_{ii}

实例演算

例 1:伯努利分布

XBernoulli(p) X \sim \text{Bernoulli}(p) ,即 f(xp)=px(1p)1x f(x|p) = p^x (1-p)^{1-x} x{0,1} x \in \{0, 1\}

对数似然:(px)=xlogp+(1x)log(1p) \ell(p|x) = x\log p + (1-x)\log(1-p)

得分函数:S(p)=xp1x1p=xpp(1p) S(p) = \frac{x}{p} - \frac{1-x}{1-p} = \frac{x-p}{p(1-p)}

费雪信息量(使用方差形式):

I(p)=Var[Xpp(1p)]=Var(X)p2(1p)2=p(1p)p2(1p)2=1p(1p)\mathcal{I}(p) = \operatorname{Var}\left[ \frac{X - p}{p(1-p)} \right] = \frac{\operatorname{Var}(X)}{p^2 (1-p)^2} = \frac{p(1-p)}{p^2 (1-p)^2} = \frac{1}{p(1-p)}

也可以用曲率形式验证:2p2=xp21x(1p)2 \frac{\partial^2 \ell}{\partial p^2} = -\frac{x}{p^2} - \frac{1-x}{(1-p)^2} ,取期望得 E[]=1p+11p=1p(1p) -\mathbb{E}[\cdot] = \frac{1}{p} + \frac{1}{1-p} = \frac{1}{p(1-p)} ,结果一致。

解读:当 p0 p \to 0 p1 p \to 1 时,I(p) \mathcal{I}(p) \to \infty ,说明极端概率更容易被精确估计(因为观测的变异性极小)。当 p=0.5 p = 0.5 时,信息量最小,为 4 4 ,对应方差下界为 1/4n 1/4n

例 2:正态分布(均值参数)

XN(μ,σ2) X \sim \mathcal{N}(\mu, \sigma^2) ,其中 σ2 \sigma^2 已知。

对数似然:(μx)=12log(2πσ2)(xμ)22σ2 \ell(\mu|x) = -\frac{1}{2}\log(2\pi\sigma^2) - \frac{(x-\mu)^2}{2\sigma^2}

得分函数:S(μ)=xμσ2 S(\mu) = \frac{x-\mu}{\sigma^2}

费雪信息量:I(μ)=Var[Xμσ2]=σ2σ4=1σ2 \mathcal{I}(\mu) = \operatorname{Var}\left[ \frac{X-\mu}{\sigma^2} \right] = \frac{\sigma^2}{\sigma^4} = \frac{1}{\sigma^2}

这与直觉高度吻合:噪声 σ2 \sigma^2 越小,每个观测关于 μ \mu 的信息就越丰富。n n 个 i.i.d. 样本的总信息量为 n/σ2 n/\sigma^2 ,因此样本均值的方差下界为 σ2/n \sigma^2/n ——而样本均值 Xˉ \bar{X} 恰好达到了这个下界,所以 Xˉ \bar{X} 是有效估计量。

费雪信息量与信息论

费雪信息量与信息论中的 KL 散度 (Kullback–Leibler Divergence) 存在深刻的几何联系。考虑两个相邻参数 θ \theta θ=θ+Δθ \theta' = \theta + \Delta\theta 下分布的 KL 散度 DKL(f(θ)f(θ)) D_{\text{KL}}(f(\cdot|\theta) \| f(\cdot|\theta')) 。对其做泰勒展开,二阶项恰好由费雪信息量控制:

DKL(fθfθ+Δθ)12I(θ)(Δθ)2D_{\text{KL}}(f_\theta \| f_{\theta + \Delta\theta}) \approx \frac{1}{2} \mathcal{I}(\theta) (\Delta\theta)^2

这意味着费雪信息量就是概率分布流形上由 KL 散度诱导的 Riemannian 度量,在信息几何 (Information Geometry) 中扮演核心角色。它赋予了参数空间一个"距离"的概念:Δθ \Delta\theta 在信息量更大的区域中代表了更大的统计区分度。

实际应用中的重要性

  1. 实验设计 (Experimental Design):费雪信息量是最优实验设计的核心准则。D-最优设计(最大化信息矩阵的行列式)和 A-最优设计(最小化信息矩阵逆的迹)都直接基于费雪信息矩阵建立,用于选择最能提供参数信息的实验条件。
  2. 模型比较与选择:在模型选择中,观测到的费雪信息量(Observed Fisher Information)用于计算某些信息准则和进行 Wald 检验。Wald 检验统计量 W=(θ^θ0)I(θ^)(θ^θ0) W = (\hat{\theta} - \theta_0)^\top \mathcal{I}(\hat{\theta}) (\hat{\theta} - \theta_0) 在大样本下服从卡方分布。
  3. Jeffreys 先验:在贝叶斯统计中,Jeffreys 无信息先验 直接由费雪信息量构造: \[ \pi(\theta) \propto \sqrt{\mathcal{I}(\theta)} \] 该先验具有参数变换不变性的优良性质,即无论对 θ \theta 做何种一一变换,Jeffreys 先验的形式保持一致。
  4. 机器学习:在自然梯度下降 (Natural Gradient Descent) 中,参数更新方向不是普通的梯度方向,而是经过费雪信息矩阵"白化"后的方向:ΔθI(θ)1θL \Delta\theta \propto \mathcal{I}(\theta)^{-1} \nabla_\theta \mathcal{L} 。这使得优化过程在参数空间的 Riemannian 度量意义下沿最陡下降方向前进,在强化学习深度学习中均有应用。

小结

费雪信息量是连接估计理论信息论微分几何的桥梁。它用一个简洁的数学量捕捉了"数据能告诉我们多少关于参数的信息"这一根本问题。从 Cramér-Rao 下界到自然梯度下降,从 Jeffreys 先验到信息几何,费雪信息量遍布统计与机器学习的各个角落,是现代数理统计不可或缺的理论工具。