ARTICLE
赤池信息量准则
赤池信息量准则(AIC) 赤池信息量准则(Akaike Information Criterion,简称 AIC)由日本统计学家赤池弘次(Hirotugu Akaike)于 1974 年提出,是统计建模中应用最广泛的模型选择准则之一。AIC 基于信息论中的Kullback-Leibler 散度概念,在模型的拟合优度与复杂度之间寻求最优平衡,提供了从多个候选模
赤池信息量准则(AIC)
赤池信息量准则(Akaike Information Criterion,简称 AIC)由日本统计学家赤池弘次(Hirotugu Akaike)于 1974 年提出,是统计建模中应用最广泛的模型选择准则之一。AIC 基于信息论中的Kullback-Leibler 散度概念,在模型的拟合优度与复杂度之间寻求最优平衡,提供了从多个候选模型中筛选相对最优模型的客观量化依据。
数学定义
对于给定数据集,设有候选统计模型,其自由参数个数为 ,最大似然函数值为 ,则该模型的 AIC 定义为:
其中:
- 为模型中自由参数的个数(含截距项与误差方差项),惩罚模型复杂度;
- 为对数似然函数在最大似然估计处的取值,衡量模型对数据的拟合程度。
当样本量 较小或参数个数 相对较大时,赤池进一步提出了校正版本——修正 AIC(AICc):
当 时,AICc 渐近等价于 AIC。实践中一般建议当 时以 AICc 替代 AIC,以避免小样本下的过拟合偏好。
理论根源:KL 信息损失
AIC 的理论基础根植于信息几何学。设真实数据生成过程为未知密度 ,候选模型的参数化密度为 ,二者间的 KL 散度衡量了用 近似 所损失的信息量。由于 未知,KL 散度无法直接计算;赤池弘次证明, 是期望对数似然的渐近无偏估计量,由此推导出最小化 AIC 等价于最小化预测分布与真实分布之间的 KL 信息损失。
这一推导蕴含了重要的统计哲学:AIC 并不假设"真实模型"存在于候选集合中,其目标是选择预测表现最优的模型,而非识别"真正的生成机制"。这与BIC的出发点存在本质区别——后者假定真实模型存在于候选集中,追求模型选择的一致性。
使用准则与模型比较
AIC 并非绝对拟合优度指标,而是相对比较工具。实践中:
- 分别估计每个候选模型并计算其 AIC 值;
- AIC 值越小的模型越优;
- 常计算差值 ,其中 的模型可视为实质性劣于最优模型,缺乏经验支持;
- 可进一步计算 Akaike 权重 ,将其解释为第 个模型是"Kullback-Leibler 意义上最优近似模型"的概率。
在计量经济学中,AIC 被广泛用于ARMA 与 ARIMA的阶数选择、VAR模型的滞后长度确定,以及线性回归和GLM中的变量筛选。在结构变点检测中,AIC 也常作为分段模型断点数量的选择依据。
与 BIC 的比较
AIC 与 Schwartz 于 1978 年提出的BIC: 是最常并列讨论的两个信息准则。二者均遵循"拟合优度加复杂度惩罚"的结构,但惩罚权重存在关键差异:
- AIC 对每个参数的惩罚为常数 2,与样本量无关;
- BIC 的惩罚为 ,随样本量增大而递增,因此在大样本下 BIC 倾向于选择更简约的模型。
从渐近性质看:当候选模型集合包含真实模型时,BIC 以概率 1 选择正确模型(当 ),具有选择一致性;AIC 不具备此性质,但可能在小样本下给出更好的预测表现。Burnham 与 Anderson 指出,AIC 的效率优势在模型不确定性显著的场景(如生态学、社会科学)中尤为重要,而 BIC 在信号处理等需精确模型识别的领域更为适用。实践中二者常同时报告,互为参照。
局限性与注意事项
使用 AIC 时需注意以下限制:
- AIC 仅适用于同一数据集上的模型比较,不同样本间不可比;
- 对于非嵌套模型(如不同分布族的 GLM),AIC 的比较是有效的,但必须确保因变量一致——变换因变量(如取对数)后 AIC 不可直接比较;
- AIC 的推导依赖于渐近正态性等正则条件,在参数位于参数空间边界或样本量极小时需谨慎使用;
- 在混合效应模型中,自由度 的界定存在歧义(随机效应的"有效参数个数"),需借助条件 AIC(cAIC)等变体;
- 当模型间 时,AIC 无法明确区分孰优孰劣,不应机械选择数值最小的模型。
知识网络与延伸
赤池信息量准则位于统计决策理论与计量方法论的交叉地带。相关概念包括:BIC、DIC(适用于贝叶斯层次模型)、最小描述长度准则(MDL,从编码理论视角理解模型选择),以及留一法交叉验证作为纯预测导向的替代方案。在正则化回归中,LASSO 与弹性网通过惩罚项自动实现变量选择,其等价于对 AIC 连续惩罚形式的某种实现。在时间序列领域,AIC 与单位根检验的滞后阶数确定、格兰杰因果检验的模型阶数选择密切关联。赤池弘次的开创性贡献深刻塑造了现代统计建模中"从数据出发,让模型复杂度自动适配信息量"这一核心范式,其影响远及机器学习中的正则化理论与实践。