ARTICLE

费舍尔信息

%% id: 6074 word: "费舍尔信息" created\_model: "stub" verified: true verified\_at: "2025-07-12T00:00:00" created\_by\_id: 1 view\_counts: 0 inserted\_at: "2025-11-08T11:08:22" updated\_

浏览 0

%%

id: 6074 word: "费舍尔信息" created\_model: "stub" verified: true verified\_at: "2025-07-12T00:00:00" created\_by\_id: 1 view\_counts: 0 inserted\_at: "2025-11-08T11:08:22" updated\_at: "2025-11-08T11:08:22" \%\%

费舍尔信息 (Fisher Information)

费舍尔信息(Fisher Information)是统计学信息理论中衡量一个可观测随机变量关于未知参数所携带信息量的核心概念。它由英国统计学家罗纳德·费舍尔(Ronald Fisher)在20世纪20年代提出,是最大似然估计(Maximum Likelihood Estimation)渐近理论、克拉美-拉奥下界(Cramér–Rao Lower Bound)以及实验设计等领域的基石。费舍尔信息定量刻画了似然函数在参数真实值附近的弯曲程度——弯曲越剧烈,数据对参数的辨识能力越强,参数的估计精度也就越高。与香农信息论中的互信息不同,费舍尔信息关注的是参数估计的精密度极限,而非通信中的信息传输速率。

形式化定义

设随机变量 X X 具有概率密度函数 f(x;θ) f(x;\theta) ,其中 θ \theta 是未知参数。首先定义得分函数(Score Function)为对数似然函数对参数的一阶偏导:

S(θ)=θlnf(X;θ)S(\theta) = \frac{\partial}{\partial\theta}\ln f(X;\theta)

在适当的正则条件下,得分函数的期望为零:E[S(θ)]=0 E[S(\theta)] = 0 。这一性质源于积分与求导的可交换性以及对数似然函数的归一化条件。费舍尔信息 I(θ) I(\theta) 定义为得分函数的方差:

I(θ)=Var[S(θ)]=E[(θlnf(X;θ))2]I(\theta) = \text{Var}[S(\theta)] = E\left[\left(\frac{\partial}{\partial\theta}\ln f(X;\theta)\right)^2\right]

在进一步的正则条件下,通过对得分函数的方差进行分部积分,费舍尔信息也可等价地表示为对数似然函数二阶导数的负期望:

I(θ)=E[2θ2lnf(X;θ)]I(\theta) = -E\left[\frac{\partial^2}{\partial\theta^2}\ln f(X;\theta)\right]

这一定义从几何上直观体现了似然函数在最大值处的曲率——曲率越大,费舍尔信息越大,参数的估计就越精确。二阶导数的期望形式在实际计算中往往更为便捷,因为它避免了对平方项取期望的繁琐运算。

克拉美-拉奥下界

费舍尔信息最重要的应用之一是确立参数估计的理论精度极限。对于 θ \theta 的任意无偏估计量 θ^ \hat{\theta} ,其方差满足克拉美-拉奥下界(Cramér–Rao Lower Bound, CRLB):

Var(θ^)1I(θ)\text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)}

这一不等式揭示了一个深刻的统计原理:任何无偏估计量的方差都无法低于费舍尔信息的倒数。达到这一下界的估计量称为有效估计量(Efficient Estimator)。对于指数族分布,最大似然估计量通常在渐近意义上达到该下界,因此具有最小渐近方差。克拉美-拉奥下界的证明依赖于柯西-施瓦茨不等式:通过计算得分函数与估计量偏差的协方差,可以推导出方差的下界恰好为费舍尔信息的倒数。

典型示例

伯努利分布:设 XBernoulli(p) X \sim \text{Bernoulli}(p) ,概率质量函数为 f(x;p)=px(1p)1x f(x;p) = p^x(1-p)^{1-x} 。对数似然为 lnf=xlnp+(1x)ln(1p) \ln f = x\ln p + (1-x)\ln(1-p) ,二阶导数为 xp21x(1p)2 -\frac{x}{p^2} - \frac{1-x}{(1-p)^2} 。取期望得:

I(p)=E[2lnfp2]=1p(1p)I(p) = -E\left[\frac{\partial^2\ln f}{\partial p^2}\right] = \frac{1}{p(1-p)}

对于 n n 个独立同分布的伯努利观测,总费舍尔信息为 n/[p(1p)] n/[p(1-p)] ,这正是样本比例 p^ \hat{p} 的方差 p(1p)/n p(1-p)/n 的倒数——说明样本比例是有效估计量,完全达到了克拉美-拉奥下界。

正态分布:设 XN(μ,σ2) X \sim N(\mu, \sigma^2) ,其中 σ2 \sigma^2 已知。关于均值 μ \mu 的费舍尔信息为:

I(μ)=1σ2I(\mu) = \frac{1}{\sigma^2}

对于 n n 个独立观测,In(μ)=n/σ2 I_n(\mu) = n/\sigma^2 。这意味着样本均值 Xˉ \bar{X} 的方差 σ2/n \sigma^2/n 恰好等于 1/In(μ) 1/I_n(\mu) ,因此样本均值是 μ \mu 的有效估计量。若 μ \mu 已知而 σ2 \sigma^2 未知,则关于方差参数的费舍尔信息为 I(σ2)=1/(2σ4) I(\sigma^2) = 1/(2\sigma^4) ,这解释了样本方差估计量的渐近方差。

泊松分布:设 XPoisson(λ) X \sim \text{Poisson}(\lambda) ,概率质量函数为 f(x;λ)=eλλx/x! f(x;\lambda) = e^{-\lambda}\lambda^x/x! 。对数似然为 lnf=xlnλλlnx! \ln f = x\ln\lambda - \lambda - \ln x! ,二阶导数为 x/λ2 -x/\lambda^2 ,取期望得 I(λ)=1/λ I(\lambda) = 1/\lambda 。样本均值 Xˉ \bar{X} 的方差为 λ/n \lambda/n ,恰好等于 1/In(λ) 1/I_n(\lambda) ,因此样本均值也是泊松分布参数的有效估计量。

可加性与重参数化

费舍尔信息具有优良的数学性质。首先,可加性:对于独立同分布的 n n 个观测,总费舍尔信息为单个观测的 n n 倍:

In(θ)=nI(θ)I_n(\theta) = n I(\theta)

这一性质直接来自独立随机变量的方差可加性,反映了数据量增长时信息量的线性积累。其次,重参数化不变性(在适当限制条件下):若 τ=g(θ) \tau = g(\theta) θ \theta 的可微变换,且 g g 可逆,则:

I(τ)=I(θ)(dθdτ)2I(\tau) = I(\theta) \left(\frac{d\theta}{d\tau}\right)^2

这保证了信息量在参数变换下具有一致的统计意义——费舍尔信息在参数空间的黎曼度量解释下是一个张量,其变换规则符合微分几何中的度量变换法则。这一性质在自然梯度下降等现代算法中具有关键作用。

与最大似然估计的关系

费舍尔信息在最大似然估计(MLE)的渐近理论中扮演核心角色。在正则条件下,MLE θ^MLE \hat{\theta}_{\text{MLE}} 具有渐近正态性:

n(θ^MLEθ)dN(0,1I(θ))\sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta) \xrightarrow{d} N\left(0, \frac{1}{I(\theta)}\right)

即 MLE 的渐近方差恰好等于费舍尔信息的倒数。这一性质使得费舍尔信息成为统计推断中度量估计精度的天然标尺——它不仅给出了理论下界,而且最大似然估计在大样本下恰好达到这一下界,体现了MLE的渐近有效性。

多维推广

当参数为 k k 维向量 θ=(θ1,,θk) \boldsymbol{\theta} = (\theta_1, \ldots, \theta_k) 时,费舍尔信息推广为 k×k k \times k 费舍尔信息矩阵(Fisher Information Matrix),其 (i,j) (i,j) 元素为:

[I(θ)]ij=E[lnfθilnfθj]=E[2lnfθiθj][I(\boldsymbol{\theta})]_{ij} = E\left[\frac{\partial\ln f}{\partial\theta_i}\frac{\partial\ln f}{\partial\theta_j}\right] = -E\left[\frac{\partial^2\ln f}{\partial\theta_i\partial\theta_j}\right]

该矩阵的逆给出了多维参数联合估计的克拉美-拉奥下界,是多变量统计推断的核心工具。当费舍尔信息矩阵为对角矩阵时,各参数的估计相互独立;非对角元素则反映了参数估计之间的协方差结构。

在经济学与机器学习中的应用

在现代计量经济学中,费舍尔信息被用于构造沃尔德检验(Wald Test)、得分检验(Score Test)和似然比检验(Likelihood Ratio Test)这三种经典假设检验框架,它们构成了大样本检验理论的支柱。在机器学习中,费舍尔信息被用于自然梯度下降(Natural Gradient Descent)——通过用费舍尔信息矩阵替代普通梯度中的欧氏度量,使梯度方向在参数空间的概率度量下达到最优,从而显著加速神经网络的训练收敛。此外,在贝叶斯统计中,费舍尔信息被用于构造无信息先验分布——杰弗里斯先验(Jeffreys Prior),其定义为 p(θ)I(θ) p(\theta) \propto \sqrt{I(\theta)} ,在参数变换下具有不变性,体现了费舍尔信息作为参数空间固有几何度量的深层意义。