信息矩阵 (Information Matrix)
信息矩阵 (Information Matrix),通常记作 I(θ) 或 I(θ),是数理统计与估计理论中的核心概念。它量化了样本数据中包含的关于未知参数 θ 的信息量,直接决定了参数估计所能达到的精度上限。信息矩阵由 费雪 (R. A. Fisher) 在 20 世纪 20 年代提出,构成 Cramér-Rao 下界 的理论基础,也是 最大似然估计 (MLE) 渐近理论的核心工具。
定义
设观测数据 X=(X1,…,Xn) 的联合概率密度为 f(x;θ),其中 θ=(θ1,…,θk) 为 k 维参数向量。得分函数 (Score Function) 定义为对数似然对参数的梯度:
s(θ)=∇θlnf(X;θ)
信息矩阵定义为得分函数的协方差矩阵:
I(θ)=E[s(θ)s(θ)⊤]=E[(∂θ∂lnf)(∂θ∂lnf)⊤]
在正则性条件下,信息矩阵等价于对数似然的负二阶导数的期望值:
I(θ)=−E[∂θ∂θ⊤∂2lnf(X;θ)]
该形式在实践中更常用,因为只需计算二阶导数而不涉及外积。对于独立同分布样本,信息矩阵具有可加性:
In(θ)=n⋅I1(θ)
与 Fisher 信息的关系
对于标量参数 θ∈R,信息矩阵退化为 Fisher 信息量:I(θ)=E[(∂lnf/∂θ)2]。对于向量参数,I(θ) 是 k×k 对称正定矩阵。其逆矩阵 I(θ)−1 给出了参数估计量的 Cramér-Rao 下界:任何无偏估计量 θ^ 的协方差矩阵满足
Cov(θ^)⪰I(θ)−1
即 Cov(θ^)−I(θ)−1 是半正定矩阵。
在最大似然估计中的应用
在 MLE 框架中,信息矩阵决定了估计量的渐近分布:
n(θ^MLE−θ0)dN(0,I1(θ0)−1)
即 MLE 是渐近有效的,其方差达到 Cramér-Rao 下界。实践中观测信息矩阵(负 Hessian)与期望信息矩阵可互换使用,二者在正确模型设定下渐近等价。在计量经济学的准最大似然估计中,采用 Sandwich 形式的渐近方差:
Avar(θ^)=I(θ)−1Var(s(θ))I(θ)−1
以修正模型误设的影响。信息矩阵还在 Wald 检验、似然比检验 和 得分检验 中作为权重矩阵出现,在 最优实验设计 和 贝叶斯统计 的先验信息量化中扮演关键角色。