ARTICLE

信息矩阵

%% id: 4962 word: "信息矩阵" created\_model: "stub" verified: true verified\_at: "2025-10-29T23:00:25" created\_by\_id: 1 view\_counts: 6 inserted\_at: "2025-10-29T23:00:25" updated\_a

id: 4962 word: "信息矩阵" created\_model: "stub" verified: true verified\_at: "2025-10-29T23:00:25" created\_by\_id: 1 view\_counts: 6 inserted\_at: "2025-10-29T23:00:25" updated\_at: "2025-10-29T23:00:25" \%\%

信息矩阵（Information Matrix），在统计学中通常指费舍尔信息矩阵（Fisher Information Matrix），是衡量观测数据关于未知参数所携带信息量的核心概念。它定义为对数似然函数关于参数的二阶偏导数的负期望值矩阵，在极大似然估计、贝叶斯推断和实验设计等领域具有基础性地位。

定义

设随机变量 $X$ 服从概率分布族 $\{f(x;\theta) : \theta \in \Theta \subseteq \mathbb{R}^p\}$ ，费舍尔信息矩阵 $I(\theta)$ 是 $p \times p$ 对称矩阵，其元素定义为：

[I(\theta)]_{ij} = -\mathbb{E}_\theta\left[\frac{\partial^2}{\partial\theta_i \partial\theta_j} \log f(X;\theta)\right] = \mathbb{E}_\theta\left[\frac{\partial \log f}{\partial\theta_i} \cdot \frac{\partial \log f}{\partial\theta_j}\right]

基本性质

非负定性：信息矩阵半正定，参数可识别时正定。
可加性：独立同分布样本的总信息量 $I_n(\theta) = n I(\theta)$ 。
克拉默-拉奥下界：无偏估计量的方差下界为信息矩阵的逆： $\operatorname{Cov}(\hat{\theta}) \succeq I(\theta)^{-1}$ 。
参数变换：若 $\psi = g(\theta)$ ，则 $I(\psi) = (G^{-1})^\top I(\theta) G^{-1}$ 。

MLE中的核心地位

极大似然估计（MLE）的渐近分布为：

\sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} \mathcal{N}(0, I(\theta)^{-1})

即信息矩阵的逆是MLE的渐近协方差矩阵。实践中常用观测信息矩阵 $J(\theta) = -\partial^2 \ell / \partial\theta \partial\theta^\top$ 替代期望信息矩阵 $I(\theta)$ ，两者在大样本下等价。

观测与期望信息矩阵

期望信息矩阵 $I(\theta)$ 依赖模型假设，适用于理论分析和实验设计；观测信息矩阵 $J(\theta)$ 依赖具体数据，适用于标准误计算。当模型正确设定时，两者在真实参数处概率收敛至同一矩阵。

模型诊断

信息矩阵在检验理论中应用广泛：得分检验利用 $S(\theta_0)^\top I(\theta_0)^{-1} S(\theta_0)$ 构造统计量；瓦尔德检验利用 $(\hat{\theta} - \theta_0)^\top I(\hat{\theta})(\hat{\theta} - \theta_0)$ ；White（1982）的信息矩阵检验通过比较两种信息矩阵检测模型设定错误。

GLM中的应用

广义线性模型中，信息矩阵简化为 $I(\beta) = X^\top W X$ ，其中 $W$ 为对角权重矩阵。这一形式使迭代加权最小二乘法（IWLS）成为拟合GLM的标准算法。

贝叶斯推断

拉普拉斯近似：后验分布近似为 $\mathcal{N}(\hat{\theta}_{\text{MAP}}, J(\hat{\theta}_{\text{MAP}})^{-1})$ 。
杰弗里斯先验：无信息先验 $p(\theta) \propto \sqrt{\det I(\theta)}$ ，在参数变换下具有不变性。
KL散度二阶近似： $\operatorname{KL}(f(x;\theta) \| f(x;\theta+\delta)) \approx \frac{1}{2} \delta^\top I(\theta) \delta$ 。

数值计算

主要方法包括：解析法（如正态线性模型 $I(\beta) = X^\top X / \sigma^2$ ）、数值微分法、外积梯度估计（BHHH）以及模型误设定下的sandwich稳健标准误。

局限

参数不可识别时信息矩阵奇异；小样本下MLE渐近方差可能严重低估真实方差；模型误设定时两种信息矩阵不等价，需使用sandwich估计。非正则模型（参数位于边界、分布支撑依赖参数）下标准渐近理论不成立。

总结

信息矩阵是现代统计推断的核心工具，从MLE的渐近效率到贝叶斯杰弗里斯先验，从GLM的迭代拟合到信息几何的黎曼度量，其深刻的理论内涵与广泛的实用性使其成为统计学不可或缺的基本概念。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。