ARTICLE

赤池信息量准则

赤池信息量准则(AIC) 赤池信息量准则(Akaike Information Criterion,简称 AIC)由日本统计学家赤池弘次(Hirotugu Akaike)于 1974 年提出,是统计建模中应用最广泛的模型选择准则之一。AIC 基于信息论中的Kullback-Leibler 散度概念,在模型的拟合优度与复杂度之间寻求最优平衡,提供了从多个候选模

浏览 5 更新 2025-10-26

赤池信息量准则(AIC)

赤池信息量准则(Akaike Information Criterion,简称 AIC)由日本统计学家赤池弘次(Hirotugu Akaike)于 1974 年提出,是统计建模中应用最广泛的模型选择准则之一。AIC 基于信息论中的Kullback-Leibler 散度概念,在模型的拟合优度复杂度之间寻求最优平衡,提供了从多个候选模型中筛选相对最优模型的客观量化依据。

数学定义

对于给定数据集,设有候选统计模型,其自由参数个数为 kk,最大似然函数值为 L^\hat{L},则该模型的 AIC 定义为:

AIC=2k2ln(L^)\text{AIC} = 2k - 2\ln(\hat{L})

其中:

  • kk 为模型中自由参数的个数(含截距项与误差方差项),惩罚模型复杂度;
  • ln(L^)\ln(\hat{L}) 为对数似然函数在最大似然估计处的取值,衡量模型对数据的拟合程度。

当样本量 nn 较小或参数个数 kk 相对较大时,赤池进一步提出了校正版本——修正 AIC(AICc):

AICc=AIC+2k(k+1)nk1\text{AICc} = \text{AIC} + \frac{2k(k+1)}{n-k-1}

nn \to \infty 时,AICc 渐近等价于 AIC。实践中一般建议当 n/k<40n/k < 40 时以 AICc 替代 AIC,以避免小样本下的过拟合偏好。

理论根源:KL 信息损失

AIC 的理论基础根植于信息几何学。设真实数据生成过程为未知密度 ff,候选模型的参数化密度为 gθg_\theta,二者间的 KL 散度衡量了用 gθg_\theta 近似 ff 所损失的信息量。由于 ff 未知,KL 散度无法直接计算;赤池弘次证明,ln(L^)k\ln(\hat{L}) - k 是期望对数似然的渐近无偏估计量,由此推导出最小化 AIC 等价于最小化预测分布与真实分布之间的 KL 信息损失。

这一推导蕴含了重要的统计哲学:AIC 并不假设"真实模型"存在于候选集合中,其目标是选择预测表现最优的模型,而非识别"真正的生成机制"。这与BIC的出发点存在本质区别——后者假定真实模型存在于候选集中,追求模型选择的一致性。

使用准则与模型比较

AIC 并非绝对拟合优度指标,而是相对比较工具。实践中:

  • 分别估计每个候选模型并计算其 AIC 值;
  • AIC 值越小的模型越优;
  • 常计算差值 Δi=AICiAICmin\Delta_i = \text{AIC}_i - \text{AIC}_{\min},其中 Δi>10\Delta_i > 10 的模型可视为实质性劣于最优模型,缺乏经验支持;
  • 可进一步计算 Akaike 权重 wi=exp(Δi/2)jexp(Δj/2)w_i = \frac{\exp(-\Delta_i/2)}{\sum_j \exp(-\Delta_j/2)},将其解释为第 ii 个模型是"Kullback-Leibler 意义上最优近似模型"的概率。

在计量经济学中,AIC 被广泛用于ARMA 与 ARIMA的阶数选择、VAR模型的滞后长度确定,以及线性回归GLM中的变量筛选。在结构变点检测中,AIC 也常作为分段模型断点数量的选择依据。

与 BIC 的比较

AIC 与 Schwartz 于 1978 年提出的BIC:BIC=klnn2ln(L^)\text{BIC} = k\ln n - 2\ln(\hat{L}) 是最常并列讨论的两个信息准则。二者均遵循"拟合优度加复杂度惩罚"的结构,但惩罚权重存在关键差异:

  • AIC 对每个参数的惩罚为常数 2,与样本量无关;
  • BIC 的惩罚为 lnn\ln n,随样本量增大而递增,因此在大样本下 BIC 倾向于选择更简约的模型。

从渐近性质看:当候选模型集合包含真实模型时,BIC 以概率 1 选择正确模型(当 nn \to \infty),具有选择一致性;AIC 不具备此性质,但可能在小样本下给出更好的预测表现。Burnham 与 Anderson 指出,AIC 的效率优势在模型不确定性显著的场景(如生态学、社会科学)中尤为重要,而 BIC 在信号处理等需精确模型识别的领域更为适用。实践中二者常同时报告,互为参照。

局限性与注意事项

使用 AIC 时需注意以下限制:

  • AIC 仅适用于同一数据集上的模型比较,不同样本间不可比;
  • 对于非嵌套模型(如不同分布族的 GLM),AIC 的比较是有效的,但必须确保因变量一致——变换因变量(如取对数)后 AIC 不可直接比较;
  • AIC 的推导依赖于渐近正态性等正则条件,在参数位于参数空间边界或样本量极小时需谨慎使用;
  • 混合效应模型中,自由度 kk 的界定存在歧义(随机效应的"有效参数个数"),需借助条件 AIC(cAIC)等变体;
  • 当模型间 Δi<2\Delta_i < 2 时,AIC 无法明确区分孰优孰劣,不应机械选择数值最小的模型。

知识网络与延伸

赤池信息量准则位于统计决策理论与计量方法论的交叉地带。相关概念包括:BICDIC(适用于贝叶斯层次模型)、最小描述长度准则(MDL,从编码理论视角理解模型选择),以及留一法交叉验证作为纯预测导向的替代方案。在正则化回归中,LASSO 与弹性网通过惩罚项自动实现变量选择,其等价于对 AIC 连续惩罚形式的某种实现。在时间序列领域,AIC 与单位根检验的滞后阶数确定、格兰杰因果检验的模型阶数选择密切关联。赤池弘次的开创性贡献深刻塑造了现代统计建模中"从数据出发,让模型复杂度自动适配信息量"这一核心范式,其影响远及机器学习中的正则化理论与实践。