ARTICLE

Akaike信息准则

赤池信息准则 (Akaike Information Criterion, AIC) 赤池信息准则（Akaike Information Criterion，简称 AIC），由日本统计学家赤池弘次 (Hirotugu Akaike)于1974年提出，是基于信息论思想的统计模型选择准则。AIC 的核心公式为：其中 k 为模型中可估计参数的个数， L 为模型在

浏览 4 更新 2025-10-26

赤池信息准则 (Akaike Information Criterion, AIC)

赤池信息准则（Akaike Information Criterion，简称 AIC），由日本统计学家赤池弘次 (Hirotugu Akaike)于1974年提出，是基于信息论思想的统计模型选择准则。AIC 的核心公式为：

\mathrm{AIC} = 2k - 2\ln(\hat{L})

其中 $k$ 为模型中可估计参数的个数， $\hat{L}$ 为模型在给定数据下的最大化似然值（maximum likelihood）。AIC 值越低，模型在拟合优度与简洁性之间的权衡越优。这一准则的哲学根基是：好的模型应当能够较好地预测未来新数据，而非仅仅完美地拟合已有数据。

理论基础：KL 散度与信息损失

AIC 的理论出发点是Kullback-Leibler 散度（Kullback-Leibler Divergence, KLD），用于度量候选模型分布 $g(x|\theta)$ 与未知的真实数据生成过程 $f(x)$ 之间的距离：

\mathrm{KL}(f \parallel g) = \int f(x) \ln\left(\frac{f(x)}{g(x|\theta)}\right) dx

KL 散度恒为非负，且仅当两分布几乎处处相等时取零。模型选择的目标即最小化这一"信息损失"。然而， $f(x)$ 未知， $\mathrm{KL}$ 无法直接计算。赤池的关键洞见在于： $\ln(\hat{L})$ 的期望值可以近似度量 KL 散度的相对大小，且作为估计量存在由参数数量 $k$ 带来的向上偏差；减去 $k$ 即可得到 KL 散度期望值的渐近无偏估计。因此， $\mathrm{AIC} = 2k - 2\ln(\hat{L})$ 实质上是对相对 KL 信息损失的近似估计——AIC 越小的模型，其与真实分布之间的预期信息损失越小。

正因为 AIC 以 KL 散度而非真实模型存在性为前提，它并不假设候选模型中一定包含"真实模型"。这在经济学和计量经济学中尤为重要：社会经济数据往往由高度复杂的系统生成，任何简约模型都只是对真实过程的近似，AIC 正是在这种"模型皆谬误"的现实假设下运作。

模型选择的逻辑与操作

给定一组备选模型 $\{M_1, M_2, \dots, M_m\}$ ，AIC 准则的操作流程如下：

对每个模型 $M_j$ 执行极大似然估计（或在满足正态假定下等价于 OLS），得到 $\hat{L}_j$ ；
统计各模型的自由参数数量 $k_j$ ；
计算 $\mathrm{AIC}_j = 2k_j - 2\ln(\hat{L}_j)$ ；
选择 $\mathrm{AIC}_j$ 最小的模型。

对于常见的线性回归模型，在误差项独立同分布于 $N(0, \sigma^2)$ 的假定下，AIC 可重写为：

\mathrm{AIC} = 2k + n\ln(\mathrm{RSS} / n)

其中 $\mathrm{RSS}$ 为残差平方和， $n$ 为样本容量。这一等价形式揭示了一个直观权衡：增加变量减少 RSS 从而降低第二项，但同时增加了参数惩罚项 $2k$ 。若新增变量的解释力不足以抵消惩罚成本，AIC 反而上升——变量应被剔除。

需要注意的是，AIC 并非假设检验框架下的是/否二元判断，它给出的是一组模型中"相对最优"的排序。不同模型之间的 AIC 差异 $\Delta_i = \mathrm{AIC}_i - \mathrm{AIC}_{\min}$ 的大小才是更值得关注的量：通常 $\Delta_i > 10$ 视为强证据反对该模型， $4 < \Delta_i \leq 7$ 为中等证据， $\Delta_i \leq 2$ 时两模型可视为几乎等价（Burnham \& Anderson, 2002）。

与 BIC 的比较

AIC 最常见的替代准则是Schwarz 信息准则（Bayesian Information Criterion, BIC / SBC），由 Gideon Schwarz 于1978年提出：

\mathrm{BIC} = k \ln(n) - 2\ln(\hat{L})

二者形式相似但目标与性质迥异。AIC 源自最小化预测误差（KL 损失），BIC 则源自最大化后验模型概率的贝叶斯框架。关键差异在于惩罚力度：AIC 的惩罚项为 $2k$ ，与样本量 $n$ 无关；BIC 的惩罚项为 $k\ln(n)$ ，随 $n$ 增大而递增。因此，对于任何 $n \geq 8$ 的数据集，BIC 对复杂模型的惩罚比 AIC 更严厉。

这一差异的渐近后果是：

AIC 是渐近有效但非一致的：在大样本下，AIC 选择的模型在预测意义上最优（最小化预测误差），但即使 $n \to \infty$ ，AIC 仍可能选中比真实模型更复杂的模型。这反映了 AIC"不必找到真模型，只需预测得好"的理念。
BIC 是一致的：若真实模型包含在候选集中，随着 $n \to \infty$ ，BIC 以概率 1 选中真实模型。但 BIC 在小样本下可能倾向于选择过于简约（欠拟合）的模型。

在计量经济学实践中，若研究目标是预测（如时间序列预报、机器学习特征工程），AIC 更为合适；若目标是识别因果结构且研究者相信存在一个"真实"的简约模型，则 BIC 可能更为适用。许多经验研究同时报告二者以展示结果的稳健性。

小样本修正：AICc

当样本量较小时，AIC 的渐近无偏性不再成立，且倾向于选择过于复杂的模型（过拟合风险增加）。Sugiura（1978）与 Hurvich 和 Tsai（1989）在正态线性回归框架下推导出小样本修正版本：

\mathrm{AICc} = \mathrm{AIC} + \frac{2k(k+1)}{n - k - 1} = 2k\left(\frac{n}{n - k - 1}\right) - 2\ln(\hat{L})

修正项 $\frac{2k(k+1)}{n - k - 1}$ 随 $k$ 增大而急剧上升，且当 $n$ 较小时尤为显著。实践中，Burnham 和 Anderson 建议：当 $n / k_{\max} < 40$ 时（即最大候选模型的参数数量超过样本量的约四十分之一），应优先使用 AICc 而非原始 AIC。

适用范围与局限

AIC 以其理论优雅和操作简便在经济学、生物统计学、心理学等领域广泛使用，尤其适用于 VAR 滞后阶数选择、ARIMA 模型定阶（结合 Box-Jenkins 方法论）、混合模型选择（如潜在类别分析和有限混合模型）、以及非嵌套模型的比较——这正是 AIC 相较传统似然比检验的独特优势：传统检验要求待比较模型之间存在嵌套关系，而 AIC 对任意一组模型均可直接比较。

然而 AIC 也有其局限：其一，AIC 仅适用于以极大似然估计的模型，对以贝叶斯方法或广义矩估计（GMM）拟合的模型不能直接套用，需要改用 DIC（Deviance Information Criterion）或相应的信息准则变体；其二，AIC 要求各候选模型基于同一数据集和同一因变量，对 $y$ 进行了不同变换（如对数 vs. 水平）的模型之间 AIC 不可比较；其三，AIC 度量的是预测精度而非经济意义上显著与否，一个 AIC 最优的模型在政策分析或结构解释中未必是最优的。

思想渊源与影响

赤池弘次在1971至1974年间发表的系列论文奠定了现代信息准则的理论基础。他本人将这一工作归结为一个朴素直觉的数学化："当模型包含太多参数时预测会变差，但太少参数同样会变差——如何找到那个平衡点？"赤池的信息论进路深刻影响了其后四十余年的统计模型选择理论，催生了 AICc、BIC、DIC、WAIC（Watanabe-Akaike Information Criterion）、最小描述长度原则 (MDL) 等一系列后继方法，至今仍是应用统计与计量经济学中不可或缺的模型筛选工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。