ARTICLE
Akaike信息准则
赤池信息准则 (Akaike Information Criterion, AIC) 赤池信息准则(Akaike Information Criterion,简称 AIC),由日本统计学家赤池弘次 (Hirotugu Akaike)于1974年提出,是基于信息论思想的统计模型选择准则。AIC 的核心公式为: 其中 k 为模型中可估计参数的个数, L 为模型在
赤池信息准则 (Akaike Information Criterion, AIC)
赤池信息准则(Akaike Information Criterion,简称 AIC),由日本统计学家赤池弘次 (Hirotugu Akaike)于1974年提出,是基于信息论思想的统计模型选择准则。AIC 的核心公式为:
其中 为模型中可估计参数的个数, 为模型在给定数据下的最大化似然值(maximum likelihood)。AIC 值越低,模型在拟合优度与简洁性之间的权衡越优。这一准则的哲学根基是:好的模型应当能够较好地预测未来新数据,而非仅仅完美地拟合已有数据。
理论基础:KL 散度与信息损失
AIC 的理论出发点是Kullback-Leibler 散度(Kullback-Leibler Divergence, KLD),用于度量候选模型分布 与未知的真实数据生成过程 之间的距离:
KL 散度恒为非负,且仅当两分布几乎处处相等时取零。模型选择的目标即最小化这一"信息损失"。然而, 未知, 无法直接计算。赤池的关键洞见在于: 的期望值可以近似度量 KL 散度的相对大小,且作为估计量存在由参数数量 带来的向上偏差;减去 即可得到 KL 散度期望值的渐近无偏估计。因此, 实质上是对相对 KL 信息损失的近似估计——AIC 越小的模型,其与真实分布之间的预期信息损失越小。
正因为 AIC 以 KL 散度而非真实模型存在性为前提,它并不假设候选模型中一定包含"真实模型"。这在经济学和计量经济学中尤为重要:社会经济数据往往由高度复杂的系统生成,任何简约模型都只是对真实过程的近似,AIC 正是在这种"模型皆谬误"的现实假设下运作。
模型选择的逻辑与操作
给定一组备选模型 ,AIC 准则的操作流程如下:
- 对每个模型 执行极大似然估计(或在满足正态假定下等价于 OLS),得到 ;
- 统计各模型的自由参数数量 ;
- 计算 ;
- 选择 最小的模型。
对于常见的线性回归模型,在误差项独立同分布于 的假定下,AIC 可重写为:
其中 为残差平方和, 为样本容量。这一等价形式揭示了一个直观权衡:增加变量减少 RSS 从而降低第二项,但同时增加了参数惩罚项 。若新增变量的解释力不足以抵消惩罚成本,AIC 反而上升——变量应被剔除。
需要注意的是,AIC 并非假设检验框架下的是/否二元判断,它给出的是一组模型中"相对最优"的排序。不同模型之间的 AIC 差异 的大小才是更值得关注的量:通常 视为强证据反对该模型, 为中等证据, 时两模型可视为几乎等价(Burnham \& Anderson, 2002)。
与 BIC 的比较
AIC 最常见的替代准则是Schwarz 信息准则(Bayesian Information Criterion, BIC / SBC),由 Gideon Schwarz 于1978年提出:
二者形式相似但目标与性质迥异。AIC 源自最小化预测误差(KL 损失),BIC 则源自最大化后验模型概率的贝叶斯框架。关键差异在于惩罚力度:AIC 的惩罚项为 ,与样本量 无关;BIC 的惩罚项为 ,随 增大而递增。因此,对于任何 的数据集,BIC 对复杂模型的惩罚比 AIC 更严厉。
这一差异的渐近后果是:
- AIC 是渐近有效但非一致的:在大样本下,AIC 选择的模型在预测意义上最优(最小化预测误差),但即使 ,AIC 仍可能选中比真实模型更复杂的模型。这反映了 AIC"不必找到真模型,只需预测得好"的理念。
- BIC 是一致的:若真实模型包含在候选集中,随着 ,BIC 以概率 1 选中真实模型。但 BIC 在小样本下可能倾向于选择过于简约(欠拟合)的模型。
在计量经济学实践中,若研究目标是预测(如时间序列预报、机器学习特征工程),AIC 更为合适;若目标是识别因果结构且研究者相信存在一个"真实"的简约模型,则 BIC 可能更为适用。许多经验研究同时报告二者以展示结果的稳健性。
小样本修正:AICc
当样本量较小时,AIC 的渐近无偏性不再成立,且倾向于选择过于复杂的模型(过拟合风险增加)。Sugiura(1978)与 Hurvich 和 Tsai(1989)在正态线性回归框架下推导出小样本修正版本:
修正项 随 增大而急剧上升,且当 较小时尤为显著。实践中,Burnham 和 Anderson 建议:当 时(即最大候选模型的参数数量超过样本量的约四十分之一),应优先使用 AICc 而非原始 AIC。
适用范围与局限
AIC 以其理论优雅和操作简便在经济学、生物统计学、心理学等领域广泛使用,尤其适用于 VAR 滞后阶数选择、ARIMA 模型定阶(结合 Box-Jenkins 方法论)、混合模型选择(如潜在类别分析和有限混合模型)、以及非嵌套模型的比较——这正是 AIC 相较传统似然比检验的独特优势:传统检验要求待比较模型之间存在嵌套关系,而 AIC 对任意一组模型均可直接比较。
然而 AIC 也有其局限:其一,AIC 仅适用于以极大似然估计的模型,对以贝叶斯方法或广义矩估计(GMM)拟合的模型不能直接套用,需要改用 DIC(Deviance Information Criterion)或相应的信息准则变体;其二,AIC 要求各候选模型基于同一数据集和同一因变量,对 进行了不同变换(如对数 vs. 水平)的模型之间 AIC 不可比较;其三,AIC 度量的是预测精度而非经济意义上显著与否,一个 AIC 最优的模型在政策分析或结构解释中未必是最优的。
思想渊源与影响
赤池弘次在1971至1974年间发表的系列论文奠定了现代信息准则的理论基础。他本人将这一工作归结为一个朴素直觉的数学化:"当模型包含太多参数时预测会变差,但太少参数同样会变差——如何找到那个平衡点?"赤池的信息论进路深刻影响了其后四十余年的统计模型选择理论,催生了 AICc、BIC、DIC、WAIC(Watanabe-Akaike Information Criterion)、最小描述长度原则 (MDL) 等一系列后继方法,至今仍是应用统计与计量经济学中不可或缺的模型筛选工具。