ARTICLE

信息矩阵

%% id: 4962 word: "信息矩阵" created\_model: "stub" verified: true verified\_at: "2025-10-29T23:00:25" created\_by\_id: 1 view\_counts: 6 inserted\_at: "2025-10-29T23:00:25" updated\_a

浏览 0

%%

id: 4962 word: "信息矩阵" created\_model: "stub" verified: true verified\_at: "2025-10-29T23:00:25" created\_by\_id: 1 view\_counts: 6 inserted\_at: "2025-10-29T23:00:25" updated\_at: "2025-10-29T23:00:25" \%\%

信息矩阵(Information Matrix),在统计学中通常指费舍尔信息矩阵(Fisher Information Matrix),是衡量观测数据关于未知参数所携带信息量的核心概念。它定义为对数似然函数关于参数的二阶偏导数的负期望值矩阵,在极大似然估计、贝叶斯推断和实验设计等领域具有基础性地位。

定义

设随机变量 XX 服从概率分布族 {f(x;θ):θΘRp}\{f(x;\theta) : \theta \in \Theta \subseteq \mathbb{R}^p\},费舍尔信息矩阵 I(θ)I(\theta)p×pp \times p 对称矩阵,其元素定义为:

[I(θ)]ij=Eθ[2θiθjlogf(X;θ)]=Eθ[logfθilogfθj][I(\theta)]_{ij} = -\mathbb{E}_\theta\left[\frac{\partial^2}{\partial\theta_i \partial\theta_j} \log f(X;\theta)\right] = \mathbb{E}_\theta\left[\frac{\partial \log f}{\partial\theta_i} \cdot \frac{\partial \log f}{\partial\theta_j}\right]

基本性质

  • 非负定性:信息矩阵半正定,参数可识别时正定。
  • 可加性:独立同分布样本的总信息量 In(θ)=nI(θ)I_n(\theta) = n I(\theta)
  • 克拉默-拉奥下界:无偏估计量的方差下界为信息矩阵的逆:Cov(θ^)I(θ)1\operatorname{Cov}(\hat{\theta}) \succeq I(\theta)^{-1}
  • 参数变换:若 ψ=g(θ)\psi = g(\theta),则 I(ψ)=(G1)I(θ)G1I(\psi) = (G^{-1})^\top I(\theta) G^{-1}

MLE中的核心地位

极大似然估计(MLE)的渐近分布为:

n(θ^nθ)dN(0,I(θ)1)\sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} \mathcal{N}(0, I(\theta)^{-1})

即信息矩阵的逆是MLE的渐近协方差矩阵。实践中常用观测信息矩阵 J(θ)=2/θθJ(\theta) = -\partial^2 \ell / \partial\theta \partial\theta^\top 替代期望信息矩阵 I(θ)I(\theta),两者在大样本下等价。

观测与期望信息矩阵

期望信息矩阵 I(θ)I(\theta) 依赖模型假设,适用于理论分析和实验设计;观测信息矩阵 J(θ)J(\theta) 依赖具体数据,适用于标准误计算。当模型正确设定时,两者在真实参数处概率收敛至同一矩阵。

模型诊断

信息矩阵在检验理论中应用广泛:得分检验利用 S(θ0)I(θ0)1S(θ0)S(\theta_0)^\top I(\theta_0)^{-1} S(\theta_0) 构造统计量;瓦尔德检验利用 (θ^θ0)I(θ^)(θ^θ0)(\hat{\theta} - \theta_0)^\top I(\hat{\theta})(\hat{\theta} - \theta_0);White(1982)的信息矩阵检验通过比较两种信息矩阵检测模型设定错误。

GLM中的应用

广义线性模型中,信息矩阵简化为 I(β)=XWXI(\beta) = X^\top W X,其中 WW 为对角权重矩阵。这一形式使迭代加权最小二乘法(IWLS)成为拟合GLM的标准算法。

贝叶斯推断

  • 拉普拉斯近似:后验分布近似为 N(θ^MAP,J(θ^MAP)1)\mathcal{N}(\hat{\theta}_{\text{MAP}}, J(\hat{\theta}_{\text{MAP}})^{-1})
  • 杰弗里斯先验:无信息先验 p(θ)detI(θ)p(\theta) \propto \sqrt{\det I(\theta)},在参数变换下具有不变性。
  • KL散度二阶近似KL(f(x;θ)f(x;θ+δ))12δI(θ)δ\operatorname{KL}(f(x;\theta) \| f(x;\theta+\delta)) \approx \frac{1}{2} \delta^\top I(\theta) \delta

数值计算

主要方法包括:解析法(如正态线性模型 I(β)=XX/σ2I(\beta) = X^\top X / \sigma^2)、数值微分法、外积梯度估计(BHHH)以及模型误设定下的sandwich稳健标准误。

局限

参数不可识别时信息矩阵奇异;小样本下MLE渐近方差可能严重低估真实方差;模型误设定时两种信息矩阵不等价,需使用sandwich估计。非正则模型(参数位于边界、分布支撑依赖参数)下标准渐近理论不成立。

总结

信息矩阵是现代统计推断的核心工具,从MLE的渐近效率到贝叶斯杰弗里斯先验,从GLM的迭代拟合到信息几何的黎曼度量,其深刻的理论内涵与广泛的实用性使其成为统计学不可或缺的基本概念。