费雪信息量 (Fisher Information)
费雪信息量 (Fisher Information) 是统计学和信息论中的一个核心概念,由统计学家 R.A. Fisher 在 1920 年代提出。它量化了一组观测数据所包含的、关于某个未知参数 θ 的"信息"的多少。更精确地说,费雪信息量衡量的是 似然函数 L(θ) 在真实参数值附近的"陡峭程度"——似然函数在极大值附近越尖锐,表明数据对参数值的约束越强,我们对该参数的知识也就越确定,信息量就越大。
直观上,如果观测数据对参数 θ 非常敏感(即 θ 的微小变化会引起似然度的剧烈变化),则费雪信息量很大;反之,如果数据对 θ 的变化"漠不关心",则费雪信息量很小,我们很难从数据中精确估计该参数。
定义与数学表达
设随机变量 X 具有概率密度函数(或概率质量函数)f(x∣θ),其中 θ 是一个未知的实数参数。假设 f(x∣θ) 满足一定的正则条件(可微性、积分与微分可交换等)。记对数似然函数为 ℓ(θ∣x)=logf(x∣θ)。则 得分函数 (Score Function) 定义为对数似然对参数的一阶导数:
S(θ)=∂θ∂ℓ(θ∣x)=∂θ∂logf(x∣θ)
费雪信息量 I(θ) 定义为得分函数的方差:
I(θ)=Var[S(θ)]=E[(∂θ∂logf(X∣θ))2θ]
在正则条件下,得分函数的期望为零,即 E[S(θ)]=0,因此费雪信息量也等于得分函数二阶矩的期望。
一个等价的、经常更便于计算的表达式是:
I(θ)=−E[∂θ2∂2logf(X∣θ)θ]
这个形式将信息量与对数似然函数在极值点附近的"曲率"联系起来:曲率越大(越尖锐),信息量越大。
独立同分布样本的情况:若 X1,X2,…,Xn 是 i.i.d. 样本,则整个样本的费雪信息量具有可加性:
In(θ)=n⋅I1(θ)
其中 I1(θ) 是单个观测所携带的费雪信息。这意味着信息量随样本量线性增长,与直觉相符——更多的数据携带更多关于参数的信息。
核心性质与 Cramér-Rao 下界
费雪信息量在统计推断中最重要的作用是通过 Cramér-Rao 不等式(或称 Cramér-Rao 下界,CRLB)来体现。该不等式为任何无偏估计量的方差设定了一个下界:
Var(θ^)≥I(θ)1
更一般地,对于可微函数 g(θ) 的任意无偏估计量 T,有:
Var(T)≥I(θ)[g′(θ)]2
这个不等式的意义极为深远:它告诉我们,无论我们设计多么精巧的估计方法,都无法使估计量的方差低于费雪信息量的倒数。费雪信息量越大,我们就能越精确地估计参数。当某个估计量的方差恰好等于 Cramér-Rao 下界时,我们称其为 有效估计量 (Efficient Estimator)。
注意:Cramér-Rao 下界只适用于无偏估计量。对于有偏估计量,存在更一般的信息不等式。
与最大似然估计的联系
费雪信息量与 最大似然估计 (Maximum Likelihood Estimation, MLE) 有着深刻的内在联系:
- 渐近正态性:在相当一般的正则条件下,MLE θ^MLE 具有渐近正态性: \[ \sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta_0) \xrightarrow{d} \mathcal{N}\left(0, \frac{1}{\mathcal{I}_1(\theta_0)}\right) \] 其中 θ0 是真实参数。这说明在大样本下,MLE 的方差趋近于费雪信息量的倒数,即 MLE 是渐近有效的。
- Fisher 得分迭代:在实际计算 MLE 时,常使用 Fisher 得分算法 (Fisher Scoring),这是一种牛顿-拉弗森方法的变体,利用费雪信息量矩阵替代 Hessian 矩阵进行迭代更新: \[ \theta^{(k+1)} = \theta^{(k)} + \mathcal{I}(\theta^{(k)})^{-1} \cdot S(\theta^{(k)}) \]
多参数情形:费雪信息矩阵
当参数 θ=(θ1,θ2,…,θp)⊤ 是一个向量时,费雪信息量推广为 费雪信息矩阵 (Fisher Information Matrix),其第 (i,j) 个元素为:
Iij(θ)=E[∂θi∂ℓ⋅∂θj∂ℓθ]=−E[∂θi∂θj∂2ℓθ]
在多参数情形下,Cramér-Rao 下界推广为矩阵不等式:对于任意无偏估计量 θ^,
Cov(θ^)⪰I(θ)−1
即协方差矩阵与费雪信息矩阵逆的差为半正定矩阵。这意味着每个参数 θi 的估计方差至少为 [I(θ)−1]ii。
实例演算
例 1:伯努利分布
设 X∼Bernoulli(p),即 f(x∣p)=px(1−p)1−x,x∈{0,1}。
对数似然:ℓ(p∣x)=xlogp+(1−x)log(1−p)
得分函数:S(p)=px−1−p1−x=p(1−p)x−p
费雪信息量(使用方差形式):
I(p)=Var[p(1−p)X−p]=p2(1−p)2Var(X)=p2(1−p)2p(1−p)=p(1−p)1
也可以用曲率形式验证:∂p2∂2ℓ=−p2x−(1−p)21−x,取期望得 −E[⋅]=p1+1−p1=p(1−p)1,结果一致。
解读:当 p→0 或 p→1 时,I(p)→∞,说明极端概率更容易被精确估计(因为观测的变异性极小)。当 p=0.5 时,信息量最小,为 4,对应方差下界为 1/4n。
例 2:正态分布(均值参数)
设 X∼N(μ,σ2),其中 σ2 已知。
对数似然:ℓ(μ∣x)=−21log(2πσ2)−2σ2(x−μ)2
得分函数:S(μ)=σ2x−μ
费雪信息量:I(μ)=Var[σ2X−μ]=σ4σ2=σ21
这与直觉高度吻合:噪声 σ2 越小,每个观测关于 μ 的信息就越丰富。n 个 i.i.d. 样本的总信息量为 n/σ2,因此样本均值的方差下界为 σ2/n——而样本均值 Xˉ 恰好达到了这个下界,所以 Xˉ 是有效估计量。
费雪信息量与信息论
费雪信息量与信息论中的 KL 散度 (Kullback–Leibler Divergence) 存在深刻的几何联系。考虑两个相邻参数 θ 和 θ′=θ+Δθ 下分布的 KL 散度 DKL(f(⋅∣θ)∥f(⋅∣θ′))。对其做泰勒展开,二阶项恰好由费雪信息量控制:
DKL(fθ∥fθ+Δθ)≈21I(θ)(Δθ)2
这意味着费雪信息量就是概率分布流形上由 KL 散度诱导的 Riemannian 度量,在信息几何 (Information Geometry) 中扮演核心角色。它赋予了参数空间一个"距离"的概念:Δθ 在信息量更大的区域中代表了更大的统计区分度。
实际应用中的重要性
- 实验设计 (Experimental Design):费雪信息量是最优实验设计的核心准则。D-最优设计(最大化信息矩阵的行列式)和 A-最优设计(最小化信息矩阵逆的迹)都直接基于费雪信息矩阵建立,用于选择最能提供参数信息的实验条件。
- 模型比较与选择:在模型选择中,观测到的费雪信息量(Observed Fisher Information)用于计算某些信息准则和进行 Wald 检验。Wald 检验统计量 W=(θ^−θ0)⊤I(θ^)(θ^−θ0) 在大样本下服从卡方分布。
- Jeffreys 先验:在贝叶斯统计中,Jeffreys 无信息先验 直接由费雪信息量构造: \[ \pi(\theta) \propto \sqrt{\mathcal{I}(\theta)} \] 该先验具有参数变换不变性的优良性质,即无论对 θ 做何种一一变换,Jeffreys 先验的形式保持一致。
- 机器学习:在自然梯度下降 (Natural Gradient Descent) 中,参数更新方向不是普通的梯度方向,而是经过费雪信息矩阵"白化"后的方向:Δθ∝I(θ)−1∇θL。这使得优化过程在参数空间的 Riemannian 度量意义下沿最陡下降方向前进,在强化学习和深度学习中均有应用。
小结
费雪信息量是连接估计理论、信息论和微分几何的桥梁。它用一个简洁的数学量捕捉了"数据能告诉我们多少关于参数的信息"这一根本问题。从 Cramér-Rao 下界到自然梯度下降,从 Jeffreys 先验到信息几何,费雪信息量遍布统计与机器学习的各个角落,是现代数理统计不可或缺的理论工具。