ARTICLE

Akaike信息准则

赤池信息准则 (Akaike Information Criterion, AIC) 赤池信息准则(Akaike Information Criterion,简称 AIC),由日本统计学家赤池弘次 (Hirotugu Akaike)于1974年提出,是基于信息论思想的统计模型选择准则。AIC 的核心公式为: 其中 k 为模型中可估计参数的个数, L 为模型在

浏览 4 更新 2025-10-26

赤池信息准则 (Akaike Information Criterion, AIC)

赤池信息准则(Akaike Information Criterion,简称 AIC),由日本统计学家赤池弘次 (Hirotugu Akaike)于1974年提出,是基于信息论思想的统计模型选择准则。AIC 的核心公式为:

AIC=2k2ln(L^)\mathrm{AIC} = 2k - 2\ln(\hat{L})

其中 k k 为模型中可估计参数的个数,L^ \hat{L} 为模型在给定数据下的最大化似然值(maximum likelihood)。AIC 值越低,模型在拟合优度与简洁性之间的权衡越优。这一准则的哲学根基是:好的模型应当能够较好地预测未来新数据,而非仅仅完美地拟合已有数据。

理论基础:KL 散度与信息损失

AIC 的理论出发点是Kullback-Leibler 散度(Kullback-Leibler Divergence, KLD),用于度量候选模型分布 g(xθ) g(x|\theta) 与未知的真实数据生成过程 f(x) f(x) 之间的距离:

KL(fg)=f(x)ln(f(x)g(xθ))dx\mathrm{KL}(f \parallel g) = \int f(x) \ln\left(\frac{f(x)}{g(x|\theta)}\right) dx

KL 散度恒为非负,且仅当两分布几乎处处相等时取零。模型选择的目标即最小化这一"信息损失"。然而,f(x) f(x) 未知,KL \mathrm{KL} 无法直接计算。赤池的关键洞见在于:ln(L^) \ln(\hat{L}) 的期望值可以近似度量 KL 散度的相对大小,且作为估计量存在由参数数量 k k 带来的向上偏差;减去 k k 即可得到 KL 散度期望值的渐近无偏估计。因此,AIC=2k2ln(L^) \mathrm{AIC} = 2k - 2\ln(\hat{L}) 实质上是对相对 KL 信息损失的近似估计——AIC 越小的模型,其与真实分布之间的预期信息损失越小。

正因为 AIC 以 KL 散度而非真实模型存在性为前提,它并不假设候选模型中一定包含"真实模型"。这在经济学和计量经济学中尤为重要:社会经济数据往往由高度复杂的系统生成,任何简约模型都只是对真实过程的近似,AIC 正是在这种"模型皆谬误"的现实假设下运作。

模型选择的逻辑与操作

给定一组备选模型 {M1,M2,,Mm} \{M_1, M_2, \dots, M_m\} ,AIC 准则的操作流程如下:

  1. 对每个模型 Mj M_j 执行极大似然估计(或在满足正态假定下等价于 OLS),得到 L^j \hat{L}_j
  2. 统计各模型的自由参数数量 kj k_j
  3. 计算 AICj=2kj2ln(L^j) \mathrm{AIC}_j = 2k_j - 2\ln(\hat{L}_j)
  4. 选择 AICj \mathrm{AIC}_j 最小的模型。

对于常见的线性回归模型,在误差项独立同分布于 N(0,σ2) N(0, \sigma^2) 的假定下,AIC 可重写为:

AIC=2k+nln(RSS/n)\mathrm{AIC} = 2k + n\ln(\mathrm{RSS} / n)

其中 RSS \mathrm{RSS} 为残差平方和,n n 为样本容量。这一等价形式揭示了一个直观权衡:增加变量减少 RSS 从而降低第二项,但同时增加了参数惩罚项 2k 2k 。若新增变量的解释力不足以抵消惩罚成本,AIC 反而上升——变量应被剔除。

需要注意的是,AIC 并非假设检验框架下的是/否二元判断,它给出的是一组模型中"相对最优"的排序。不同模型之间的 AIC 差异 Δi=AICiAICmin \Delta_i = \mathrm{AIC}_i - \mathrm{AIC}_{\min} 的大小才是更值得关注的量:通常 Δi>10 \Delta_i > 10 视为强证据反对该模型,4<Δi7 4 < \Delta_i \leq 7 为中等证据,Δi2 \Delta_i \leq 2 时两模型可视为几乎等价(Burnham \& Anderson, 2002)。

与 BIC 的比较

AIC 最常见的替代准则是Schwarz 信息准则(Bayesian Information Criterion, BIC / SBC),由 Gideon Schwarz 于1978年提出:

BIC=kln(n)2ln(L^)\mathrm{BIC} = k \ln(n) - 2\ln(\hat{L})

二者形式相似但目标与性质迥异。AIC 源自最小化预测误差(KL 损失),BIC 则源自最大化后验模型概率的贝叶斯框架。关键差异在于惩罚力度:AIC 的惩罚项为 2k 2k ,与样本量 n n 无关;BIC 的惩罚项为 kln(n) k\ln(n) ,随 n n 增大而递增。因此,对于任何 n8 n \geq 8 的数据集,BIC 对复杂模型的惩罚比 AIC 更严厉

这一差异的渐近后果是:

  • AIC 是渐近有效但非一致的:在大样本下,AIC 选择的模型在预测意义上最优(最小化预测误差),但即使 n n \to \infty ,AIC 仍可能选中比真实模型更复杂的模型。这反映了 AIC"不必找到真模型,只需预测得好"的理念。
  • BIC 是一致的:若真实模型包含在候选集中,随着 n n \to \infty ,BIC 以概率 1 选中真实模型。但 BIC 在小样本下可能倾向于选择过于简约(欠拟合)的模型。

在计量经济学实践中,若研究目标是预测(如时间序列预报、机器学习特征工程),AIC 更为合适;若目标是识别因果结构且研究者相信存在一个"真实"的简约模型,则 BIC 可能更为适用。许多经验研究同时报告二者以展示结果的稳健性。

小样本修正:AICc

当样本量较小时,AIC 的渐近无偏性不再成立,且倾向于选择过于复杂的模型(过拟合风险增加)。Sugiura(1978)与 Hurvich 和 Tsai(1989)在正态线性回归框架下推导出小样本修正版本:

AICc=AIC+2k(k+1)nk1=2k(nnk1)2ln(L^)\mathrm{AICc} = \mathrm{AIC} + \frac{2k(k+1)}{n - k - 1} = 2k\left(\frac{n}{n - k - 1}\right) - 2\ln(\hat{L})

修正项 2k(k+1)nk1 \frac{2k(k+1)}{n - k - 1} k k 增大而急剧上升,且当 n n 较小时尤为显著。实践中,Burnham 和 Anderson 建议:当 n/kmax<40 n / k_{\max} < 40 时(即最大候选模型的参数数量超过样本量的约四十分之一),应优先使用 AICc 而非原始 AIC。

适用范围与局限

AIC 以其理论优雅和操作简便在经济学、生物统计学、心理学等领域广泛使用,尤其适用于 VAR 滞后阶数选择、ARIMA 模型定阶(结合 Box-Jenkins 方法论)、混合模型选择(如潜在类别分析和有限混合模型)、以及非嵌套模型的比较——这正是 AIC 相较传统似然比检验的独特优势:传统检验要求待比较模型之间存在嵌套关系,而 AIC 对任意一组模型均可直接比较。

然而 AIC 也有其局限:其一,AIC 仅适用于以极大似然估计的模型,对以贝叶斯方法或广义矩估计(GMM)拟合的模型不能直接套用,需要改用 DIC(Deviance Information Criterion)或相应的信息准则变体;其二,AIC 要求各候选模型基于同一数据集和同一因变量,对 y y 进行了不同变换(如对数 vs. 水平)的模型之间 AIC 不可比较;其三,AIC 度量的是预测精度而非经济意义上显著与否,一个 AIC 最优的模型在政策分析或结构解释中未必是最优的。

思想渊源与影响

赤池弘次在1971至1974年间发表的系列论文奠定了现代信息准则的理论基础。他本人将这一工作归结为一个朴素直觉的数学化:"当模型包含太多参数时预测会变差,但太少参数同样会变差——如何找到那个平衡点?"赤池的信息论进路深刻影响了其后四十余年的统计模型选择理论,催生了 AICc、BIC、DIC、WAIC(Watanabe-Akaike Information Criterion)、最小描述长度原则 (MDL) 等一系列后继方法,至今仍是应用统计与计量经济学中不可或缺的模型筛选工具。