# 费雪信息 (Fisher Information)
费雪信息 (Fisher Information),以其提出者,伟大的{{{统计学}}}家罗纳德·艾尔默·费雪爵士 (Sir {{{Ronald Aylmer Fisher}}}) 的名字命名,是数理统计学中的一个核心概念。它从量化的角度,描述了一个{{{随机变量}}}的观测值中,包含了多少关于其背后{{{概率分布}}}中未知{{{参数}}}的信息。
从直观上理解,费雪信息衡量了数据的“信息量”。如果一个数据集的费雪信息量很高,这意味着数据对于未知参数的微小变化非常敏感,因此我们可以利用这些数据对该参数做出非常精确的{{{估计}}}。相反,如果费雪信息量很低,则表示数据对参数的变化不敏感,基于这些数据所做的估计将有较大的不确定性。
## 数学定义
费雪信息的定义与{{{似然函数}}} (Likelihood Function) 紧密相关。假设我们有一个随机变量 $X$,其概率分布由一个未知的参数 $\theta$ 决定,其{{{概率密度函数}}}(或{{{概率质量函数}}})为 $f(x; \theta)$。
第一步是定义 得分函数 (Score Function),或简称为得分 (Score)。得分函数是{{{对数似然函数}}} $\ell(\theta; x) = \log f(x; \theta)$ 关于参数 $\theta$ 的一阶导数:
$$ S(\theta) = \frac{\partial}{\partial \theta} \log f(X; \theta) $$
得分函数本身是一个随机变量,因为它依赖于观测数据 $X$。一个至关重要的性质是,在某些温和的{{{正则性条件}}}下,得分函数在真实参数值处的{{{期望}}}为零:
$$ E[S(\theta); \theta] = 0 $$
费雪信息 $I(\theta)$ 被定义为 得分函数的{{{方差}}}:
$$ I(\theta) = \text{Var}[S(\theta)] = E[(S(\theta))^2] $$
由于得分函数的期望为零,其方差等于其二阶矩。这个定义揭示了费雪信息的核心:得分函数的波动性越大,意味着对数似然函数在真实参数 $\theta$ 附近对 $\theta$ 的变化越敏感,因此数据包含的关于 $\theta$ 的信息就越多。
在同样的正则性条件下,费雪信息还有一个等价且在计算上往往更方便的定义,即对数似然函数二阶导数的负期望值:
$$ I(\theta) = -E\left[\frac{\partial^2}{\partial \theta^2} \log f(X; \theta)\right] $$
这个形式也提供了深刻的几何直观。$-\frac{\partial^2}{\partial \theta^2} \log f(X; \theta)$ 衡量了对数似然函数在峰值(即{{{最大似然估计}}}值)处的曲率 (Curvature)。较大的正曲率(即一个更尖锐、更陡峭的峰)意味着似然函数对参数偏离其最优值的惩罚很大,表明数据非常明确地指向了某个参数值,因而信息量大。费雪信息就是这个曲率的期望值。
## 关键性质
一. 非负性:作为方差,费雪信息必然是非负的,$I(\theta) \ge 0$。信息量不能为负。
二. 可加性:如果 $X_1, X_2, \dots, X_n$ 是来自同一分布的 $n$ 个{{{独立同分布}}} (i.i.d.) 的观测样本,那么这个样本整体所包含的关于参数 $\theta$ 的费雪信息,是单个观测样本所含信息的 $n$ 倍。设 $I_1(\theta)$ 为单个观测的费雪信息,则 $n$ 个观测的总费雪信息 $I_n(\theta)$ 为: $$ I_n(\theta) = n \cdot I_1(\theta) $$ 这个性质非常符合直觉:数据越多,我们获得的信息就越多。
三. 重参数化 (Reparameterization):如果我们用一个新的参数 $\eta = g(\theta)$ 来替代原来的参数 $\theta$(假设 $g$ 是可微函数),那么关于新参数 $\eta$ 的费雪信息 $I_\eta(\eta)$ 可以通过链式法则与原费雪信息联系起来: $$ I_\eta(\eta) = I_\theta(\theta) \left( \frac{d\theta}{d\eta} \right)^2 $$
四. 充分统计量:如果 $T(X)$ 是关于 $\theta$ 的一个{{{充分统计量}}},那么基于统计量 $T$ 计算出的费雪信息与基于原始数据 $X$ 计算出的费雪信息是相等的。这从信息论的角度证明了充分统计量确实包含了样本中关于参数的所有信息。
## 应用与重要性
费雪信息是理论统计学和应用统计学的基石,其重要性体现在以下几个方面:
### 1. 克拉默-拉奥下界 (Cramér-Rao Bound)
这是费雪信息最著名的应用。{{{克拉默-拉奥下界}}} (Cramér-Rao Lower Bound, CRLB) 指出,对于任何一个参数 $\theta$ 的{{{无偏估计量}}} $\hat{\theta}$,其方差都不能小于费雪信息的倒数:
$$ \text{Var}(\hat{\theta}) \ge \frac{1}{I(\theta)} $$
这个不等式为所有无偏估计量的精度(用方差来衡量)设定了一个理论上的极限。一个无偏估计量的方差越小,说明它越精确。CRLB告诉我们,无论我们用多么巧妙的方法构造估计量,其精度都不可能无限提高,其所能达到的最佳精度受限于数据本身所含的费马信息量。
一个达到了克拉默-拉奥下界的无偏估计量被称为 {{{有效估计量}}} (Efficient Estimator)。
### 2. 最大似然估计 (Maximum Likelihood Estimation)
费雪信息在{{{最大似然估计}}} (MLE) 的理论中扮演着核心角色。在大的样本量下,最大似然估计量 $\hat{\theta}_{MLE}$ 具有优良的性质:
* 它近似服从一个{{{正态分布}}}。 * 它的期望近似为真实的参数值 $\theta$({{{渐进无偏}}})。 * 它的方差近似等于克拉मर-拉奥下界,即 $1/I_n(\theta)$。
具体来说,当样本量 $n \to \infty$ 时: $$ \sqrt{n}(\hat{\theta}_{MLE} - \theta) \xrightarrow{d} N\left(0, \frac{1}{I_1(\theta)}\right) $$ 其中 $I_1(\theta)$ 是单个观测的费雪信息,$\xrightarrow{d}$ 表示{{{依分布收敛}}}。
这个性质使得我们能够利用费雪信息来构建关于参数的{{{置信区间}}} (Confidence Interval) 和进行{{{假设检验}}} (Hypothesis Testing)。
### 3. 实验设计 (Experimental Design)
在科学研究和工程中,我们可以利用费雪信息的概念来优化{{{实验设计}}}。目标是选择实验条件(如样本量、测量点、输入信号等),以最大化所收集数据中关于目标参数的费雪信息。通过最大化 $I(\theta)$,我们可以用最少的资源获得对参数最精确的估计,从而提高实验的效率和效果。
## 示例:伯努利分布
让我们通过一个具体的例子来计算费雪信息。考虑一个{{{伯努利试验}}},其结果为 $X=1$(成功)的概率为 $p$,结果为 $X=0$(失败)的概率为 $1-p$。这里的未知参数是 $\theta = p$。
{{{概率质量函数}}}为: $$ f(x; p) = p^x (1-p)^{1-x}, \quad x \in \{0, 1\} $$
对数似然函数为: $$ \ell(p; x) = \log f(x; p) = x \log p + (1-x) \log(1-p) $$
计算其关于 $p$ 的一阶和二阶导数: $$ \frac{\partial \ell}{\partial p} = \frac{x}{p} - \frac{1-x}{1-p} \quad (\text{这是得分函数}) $$ $$ \frac{\partial^2 \ell}{\partial p^2} = -\frac{x}{p^2} - \frac{1-x}{(1-p)^2} $$
现在,我们使用 $I(p) = -E\left[\frac{\partial^2 \ell}{\partial p^2}\right]$ 来计算费雪信息。我们需要计算二阶导数的期望。注意到 $E[X] = p$: $$ I(p) = -E\left[-\frac{X}{p^2} - \frac{1-X}{(1-p)^2}\right] = E\left[\frac{X}{p^2}\right] + E\left[\frac{1-X}{(1-p)^2}\right] $$ $$ I(p) = \frac{E[X]}{p^2} + \frac{1-E[X]}{(1-p)^2} = \frac{p}{p^2} + \frac{1-p}{(1-p)^2} = \frac{1}{p} + \frac{1}{1-p} = \frac{1}{p(1-p)} $$ 所以,对于伯努利分布,单个观测的费雪信息是 $I(p) = \frac{1}{p(1-p)}$。
这个结果很直观: * 当 $p=0.5$ 时,分母 $p(1-p)$ 达到最大值 $0.25$,此时费雪信息 $I(p)$ 达到最小值 $4$。这意味着当成功和失败概率均等时,我们对 $p$ 的不确定性最大,单个观测提供的信息相对较少。 * 当 $p$ 趋近于 $0$ 或 $1$ 时,分母 $p(1-p)$ 趋近于 $0$,费雪信息 $I(p)$ 趋近于无穷大。这看起来有些反直觉,但它意味着,如果真实概率非常极端(例如 $p=0.0001$),那么只要观测到一个“成功”事件,我们就能极大地更新我们对 $p$ 的认知,因此这个观测携带了巨大的信息量。
## 多元参数情况:费雪信息矩阵
当模型包含一个由 $k$ 个参数组成的向量 $\boldsymbol{\theta} = (\theta_1, \theta_2, \dots, \theta_k)^T$ 时,费雪信息的概念被推广为 费雪信息矩阵 (Fisher Information Matrix, FIM)。它是一个 $k \times k$ 的对称矩阵,其第 $(i, j)$ 个元素定义为:
$$ [I(\boldsymbol{\theta})]_{ij} = -E\left[\frac{\partial^2}{\partial \theta_i \partial \theta_j} \log f(X; \boldsymbol{\theta})\right] $$
费雪信息矩阵描述了参数向量中所有元素之间信息的相互关系。克拉默-拉奥下界也相应地推广到矩阵形式,此时一个无偏估计量 $\hat{\boldsymbol{\theta}}$ 的{{{协方差矩阵}}} $\text{Cov}(\hat{\boldsymbol{\theta}})$ 满足: $$ \text{Cov}(\hat{\boldsymbol{\theta}}) \ge [I(\boldsymbol{\theta})]^{-1} $$ 其中 $[I(\boldsymbol{\theta})]^{-1}$ 是费雪信息矩阵的逆矩阵,不等式的意思是 $\text{Cov}(\hat{\boldsymbol{\theta}}) - [I(\boldsymbol{\theta})]^{-1}$ 是一个{{{半正定矩阵}}}。