ARTICLE

信息矩阵 (Information matrix)

信息矩阵 (Information Matrix) 信息矩阵 (Information Matrix),通常记作 I( ) 或 I( ),是数理统计与估计理论中的核心概念。它量化了样本数据中包含的关于未知参数 的信息量,直接决定了参数估计所能达到的精度上限。信息矩阵由 费雪 (R. A. Fisher) 在 20 世纪 20 年代提出,构成 Cramér-R

浏览 0 更新 2026-06-13

信息矩阵 (Information Matrix)

信息矩阵 (Information Matrix),通常记作 I(θ)\mathcal{I}(\theta)I(θ)I(\theta),是数理统计估计理论中的核心概念。它量化了样本数据中包含的关于未知参数 θ\theta 的信息量,直接决定了参数估计所能达到的精度上限。信息矩阵由 费雪 (R. A. Fisher) 在 20 世纪 20 年代提出,构成 Cramér-Rao 下界 的理论基础,也是 最大似然估计 (MLE) 渐近理论的核心工具。

定义

设观测数据 X=(X1,,Xn)X = (X_1, \ldots, X_n) 的联合概率密度为 f(x;θ)f(x; \theta),其中 θ=(θ1,,θk)\theta = (\theta_1, \ldots, \theta_k) 为 k 维参数向量。得分函数 (Score Function) 定义为对数似然对参数的梯度:

s(θ)=θlnf(X;θ)s(\theta) = \nabla_\theta \ln f(X; \theta)

信息矩阵定义为得分函数的协方差矩阵:

I(θ)=E[s(θ)s(θ)]=E[(lnfθ)(lnfθ)]\mathcal{I}(\theta) = \mathbb{E}\left[ s(\theta) s(\theta)^\top \right] = \mathbb{E}\left[ \left( \frac{\partial \ln f}{\partial \theta} \right) \left( \frac{\partial \ln f}{\partial \theta} \right)^\top \right]

正则性条件下,信息矩阵等价于对数似然的负二阶导数的期望值:

I(θ)=E[2lnf(X;θ)θθ]\mathcal{I}(\theta) = -\mathbb{E}\left[ \frac{\partial^2 \ln f(X; \theta)}{\partial \theta \partial \theta^\top} \right]

该形式在实践中更常用,因为只需计算二阶导数而不涉及外积。对于独立同分布样本,信息矩阵具有可加性:

In(θ)=nI1(θ)\mathcal{I}_n(\theta) = n \cdot \mathcal{I}_1(\theta)

与 Fisher 信息的关系

对于标量参数 θR\theta \in \mathbb{R},信息矩阵退化为 Fisher 信息量:I(θ)=E[(lnf/θ)2]I(\theta) = \mathbb{E}[(\partial \ln f/\partial \theta)^2]。对于向量参数,I(θ)\mathcal{I}(\theta)k×kk \times k 对称正定矩阵。其逆矩阵 I(θ)1\mathcal{I}(\theta)^{-1} 给出了参数估计量的 Cramér-Rao 下界:任何无偏估计量 θ^\hat{\theta} 的协方差矩阵满足

Cov(θ^)I(θ)1\operatorname{Cov}(\hat{\theta}) \succeq \mathcal{I}(\theta)^{-1}

Cov(θ^)I(θ)1\operatorname{Cov}(\hat{\theta}) - \mathcal{I}(\theta)^{-1} 是半正定矩阵。

在最大似然估计中的应用

在 MLE 框架中,信息矩阵决定了估计量的渐近分布:

n(θ^MLEθ0)dN(0,I1(θ0)1)\sqrt{n} (\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N(0, \mathcal{I}_1(\theta_0)^{-1})

即 MLE 是渐近有效的,其方差达到 Cramér-Rao 下界。实践中观测信息矩阵(负 Hessian)与期望信息矩阵可互换使用,二者在正确模型设定下渐近等价。在计量经济学的准最大似然估计中,采用 Sandwich 形式的渐近方差:

Avar(θ^)=I(θ)1Var(s(θ))I(θ)1\operatorname{Avar}(\hat{\theta}) = \mathcal{I}(\theta)^{-1} \operatorname{Var}(s(\theta)) \mathcal{I}(\theta)^{-1}

以修正模型误设的影响。信息矩阵还在 Wald 检验似然比检验得分检验 中作为权重矩阵出现,在 最优实验设计贝叶斯统计 的先验信息量化中扮演关键角色。