ARTICLE

赤池信息准则

赤池信息准则 (AIC) 赤池信息准则(Akaike Information Criterion,AIC)由日本统计学家赤池弘次(Hirotugu Akaike)于1973年提出,是统计模型选择领域最为广泛使用的准则之一。AIC以信息论为基础,旨在评估统计模型在拟合优度与模型复杂度之间的最佳权衡,其核心思想与奥卡姆剃刀原则一致:在解释数据能力相当的情况下,更

浏览 9 更新 2025-10-26

赤池信息准则 (AIC)

赤池信息准则(Akaike Information Criterion,AIC)由日本统计学家赤池弘次(Hirotugu Akaike)于1973年提出,是统计模型选择领域最为广泛使用的准则之一。AIC以信息论为基础,旨在评估统计模型拟合优度与模型复杂度之间的最佳权衡,其核心思想与奥卡姆剃刀原则一致:在解释数据能力相当的情况下,更简单的模型应当优先选择。AIC不假设真实模型存在于候选模型集中,而是以最小化预期信息损失为目标,为模型选择提供了一个客观的量化标准。

数学定义与直观解释

AIC的定义式为:

AIC=2k2ln(L^)\mathrm{AIC} = 2k - 2\ln(\hat{L})

其中 kk 为模型中自由参数的个数,L^\hat{L}极大似然估计似然函数的最大值。该准则由两部分构成:奖励项 2ln(L^)-2\ln(\hat{L}) 反映模型对数据的拟合优度——似然值越大多项越负,AIC越低;惩罚项 2k2k 随参数数量的增加而增加,抑制过度复杂化。模型选择规则为AIC值最小的模型最优,即该模型在拟合精度和简洁性之间实现了最佳平衡。

从信息论视角,AIC是真实分布与模型分布之间Kullback-Leibler散度的渐近无偏估计量。2ln(L^)-2\ln(\hat{L}) 可视为模型拟合数据"信息损失"的度量,而 2k2k 则校正了使用同一数据同时估计参数和评估模型带来的偏差。因此AIC越小表明该模型所估计的概率分布越接近未知的真实分布。

模型比较中的机制

AIC通过惩罚项 2k2k 建立了一套自动防范过拟合的机制。当模型参数过少(欠拟合)时,L^\hat{L} 偏低导致 2ln(L^)-2\ln(\hat{L}) 较大,AIC升高;当模型参数过多(过拟合)时,L^\hat{L} 极高导致 2ln(L^)-2\ln(\hat{L}) 缩小,但 2k2k 增大使AIC再次上升。AIC恰好在两者之间寻找最优平衡点,该平衡点的定位只依赖于数据本身,无需进行主观的假设检验或设定显著性阈值。

小样本修正:AICc

当样本量较小(经验准则为 n/k<40n/k < 40)时,标准AIC倾向于选择过多参数,需要引入小样本修正AICc

AICc=AIC+2k(k+1)nk1\mathrm{AICc} = \mathrm{AIC} + \frac{2k(k+1)}{n-k-1}

其中 nn样本量。修正项在样本量趋于无穷时趋近于零,此时AICc还原为AIC。在实际建模中,建议优先使用AICc以获得更稳健的模型选择结果,尤其在多元线性回归时间序列分析等中小样本场景中。

与BIC的对比

AIC与贝叶斯信息准则(BIC)是两个最常用的模型选择准则。BIC定义为 BIC=kln(n)2ln(L^)\mathrm{BIC} = k\ln(n) - 2\ln(\hat{L}),其惩罚项 kln(n)k\ln(n)n>e27.4n > e^2 \approx 7.4 时严于AIC的 2k2k。两者源于不同的哲学基础:AIC基于频率学派的预期信息损失最小化,倾向于选择较复杂模型以提升预测能力,不假设真实模型在候选集中;BIC则基于贝叶斯统计,假设真实模型存在于候选集中且随样本增大以概率1选中真模型,具有一致性。在实际应用中,若目标为预测精度,AIC通常更优;若目标为识别真实生成过程,BIC更为合适。

使用注意事项

使用AIC时需遵守以下要点。AIC值为相对量,其绝对数值本身无意义,仅模型间的AIC差值可解释为信息损失差异(如 ΔAIC=20\Delta \mathrm{AIC} = 20 表明相对支持强度悬殊)。比较必须在同一组观测数据和同一响应变量上进行,改变数据量、变量变换或响应变量变换均使AIC不可直接比较。AIC不检验模型是否"真实"或"充分",仅在一组候选模型中选出相对最优者。若所有候选模型均拟合较差,AIC仍然会选出一个,因而必须结合残差分析交叉验证等诊断工具综合评估模型质量。在实际应用中,AIC广泛用于ARMA模型的阶数选择、变量选择机器学习中的特征筛选。

记忆口诀:拟合要好(LL 大)、参数要少(kk 小),二者权衡,AIC最小者最佳。