ARTICLE

赤池信息量准则

赤池信息量准则（AIC）赤池信息量准则（Akaike Information Criterion，简称 AIC）由日本统计学家赤池弘次（Hirotugu Akaike）于 1974 年提出，是统计建模中应用最广泛的模型选择准则之一。AIC 基于信息论中的Kullback-Leibler 散度概念，在模型的拟合优度与复杂度之间寻求最优平衡，提供了从多个候选模

浏览 5 更新 2025-10-26

赤池信息量准则（AIC）

赤池信息量准则（Akaike Information Criterion，简称 AIC）由日本统计学家赤池弘次（Hirotugu Akaike）于 1974 年提出，是统计建模中应用最广泛的模型选择准则之一。AIC 基于信息论中的Kullback-Leibler 散度概念，在模型的拟合优度与复杂度之间寻求最优平衡，提供了从多个候选模型中筛选相对最优模型的客观量化依据。

数学定义

对于给定数据集，设有候选统计模型，其自由参数个数为 $k$ ，最大似然函数值为 $\hat{L}$ ，则该模型的 AIC 定义为：

\text{AIC} = 2k - 2\ln(\hat{L})

其中：

$k$ 为模型中自由参数的个数（含截距项与误差方差项），惩罚模型复杂度；
$\ln(\hat{L})$ 为对数似然函数在最大似然估计处的取值，衡量模型对数据的拟合程度。

当样本量 $n$ 较小或参数个数 $k$ 相对较大时，赤池进一步提出了校正版本——修正 AIC（AICc）：

\text{AICc} = \text{AIC} + \frac{2k(k+1)}{n-k-1}

当 $n \to \infty$ 时，AICc 渐近等价于 AIC。实践中一般建议当 $n/k < 40$ 时以 AICc 替代 AIC，以避免小样本下的过拟合偏好。

理论根源：KL 信息损失

AIC 的理论基础根植于信息几何学。设真实数据生成过程为未知密度 $f$ ，候选模型的参数化密度为 $g_\theta$ ，二者间的 KL 散度衡量了用 $g_\theta$ 近似 $f$ 所损失的信息量。由于 $f$ 未知，KL 散度无法直接计算；赤池弘次证明， $\ln(\hat{L}) - k$ 是期望对数似然的渐近无偏估计量，由此推导出最小化 AIC 等价于最小化预测分布与真实分布之间的 KL 信息损失。

这一推导蕴含了重要的统计哲学：AIC 并不假设"真实模型"存在于候选集合中，其目标是选择预测表现最优的模型，而非识别"真正的生成机制"。这与BIC的出发点存在本质区别——后者假定真实模型存在于候选集中，追求模型选择的一致性。

使用准则与模型比较

AIC 并非绝对拟合优度指标，而是相对比较工具。实践中：

分别估计每个候选模型并计算其 AIC 值；
AIC 值越小的模型越优；
常计算差值 $\Delta_i = \text{AIC}_i - \text{AIC}_{\min}$ ，其中 $\Delta_i > 10$ 的模型可视为实质性劣于最优模型，缺乏经验支持；
可进一步计算 Akaike 权重 $w_i = \frac{\exp(-\Delta_i/2)}{\sum_j \exp(-\Delta_j/2)}$ ，将其解释为第 $i$ 个模型是"Kullback-Leibler 意义上最优近似模型"的概率。

在计量经济学中，AIC 被广泛用于ARMA 与 ARIMA的阶数选择、VAR模型的滞后长度确定，以及线性回归和GLM中的变量筛选。在结构变点检测中，AIC 也常作为分段模型断点数量的选择依据。

与 BIC 的比较

AIC 与 Schwartz 于 1978 年提出的BIC： $\text{BIC} = k\ln n - 2\ln(\hat{L})$ 是最常并列讨论的两个信息准则。二者均遵循"拟合优度加复杂度惩罚"的结构，但惩罚权重存在关键差异：

AIC 对每个参数的惩罚为常数 2，与样本量无关；
BIC 的惩罚为 $\ln n$ ，随样本量增大而递增，因此在大样本下 BIC 倾向于选择更简约的模型。

从渐近性质看：当候选模型集合包含真实模型时，BIC 以概率 1 选择正确模型（当 $n \to \infty$ ），具有选择一致性；AIC 不具备此性质，但可能在小样本下给出更好的预测表现。Burnham 与 Anderson 指出，AIC 的效率优势在模型不确定性显著的场景（如生态学、社会科学）中尤为重要，而 BIC 在信号处理等需精确模型识别的领域更为适用。实践中二者常同时报告，互为参照。

局限性与注意事项

使用 AIC 时需注意以下限制：

AIC 仅适用于同一数据集上的模型比较，不同样本间不可比；
对于非嵌套模型（如不同分布族的 GLM），AIC 的比较是有效的，但必须确保因变量一致——变换因变量（如取对数）后 AIC 不可直接比较；
AIC 的推导依赖于渐近正态性等正则条件，在参数位于参数空间边界或样本量极小时需谨慎使用；
在混合效应模型中，自由度 $k$ 的界定存在歧义（随机效应的"有效参数个数"），需借助条件 AIC（cAIC）等变体；
当模型间 $\Delta_i < 2$ 时，AIC 无法明确区分孰优孰劣，不应机械选择数值最小的模型。

知识网络与延伸

赤池信息量准则位于统计决策理论与计量方法论的交叉地带。相关概念包括：BIC、DIC（适用于贝叶斯层次模型）、最小描述长度准则（MDL，从编码理论视角理解模型选择），以及留一法交叉验证作为纯预测导向的替代方案。在正则化回归中，LASSO 与弹性网通过惩罚项自动实现变量选择，其等价于对 AIC 连续惩罚形式的某种实现。在时间序列领域，AIC 与单位根检验的滞后阶数确定、格兰杰因果检验的模型阶数选择密切关联。赤池弘次的开创性贡献深刻塑造了现代统计建模中"从数据出发，让模型复杂度自动适配信息量"这一核心范式，其影响远及机器学习中的正则化理论与实践。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。