ARTICLE
AICc
修正赤池信息准则 (AICc) AICc(Corrected Akaike Information Criterion,修正赤池信息准则)是赤池信息准则(AIC)的小样本修正版本,由 Sugiura (1978) 提出并经 Hurvich 与 Tsai (1989) 系统发展。AICc 在 AIC 的基础上引入与样本量和参数个数相关的二阶偏差校正项,旨在克服
修正赤池信息准则 (AICc)
AICc(Corrected Akaike Information Criterion,修正赤池信息准则)是赤池信息准则(AIC)的小样本修正版本,由 Sugiura (1978) 提出并经 Hurvich 与 Tsai (1989) 系统发展。AICc 在 AIC 的基础上引入与样本量和参数个数相关的二阶偏差校正项,旨在克服 AIC 在小样本场景下倾向于选择过度参数化模型的系统性偏差。该准则广泛用于模型选择、回归分析、时间序列分析和计量经济学中的变量筛选问题。
背景与动机
经典 AIC 由赤池弘次于 1973 年提出,其定义为 ,其中 为模型的最大似然函数值, 为待估参数个数。AIC 的推导依赖于最大似然估计量的渐近正态性,其偏差校正项 仅在大样本下严格有效。当样本量 较小或参数个数 相对于 较大时,AIC 对模型复杂度的惩罚力度不足,倾向于选择包含过多参数的模型,导致过拟合和预测能力下降。
Sugiura (1978) 在线性回归模型框架下推导出 AIC 在小样本下的精确无偏估计,Hurvich 与 Tsai (1989) 将其推广至更一般的统计模型,正式提出 AICc。Burnham 与 Anderson 在其经典著作《Model Selection and Multimodel Inference》中强烈建议在实际应用中始终使用 AICc 替代 AIC,因为当样本量增大时 AICc 自动收敛至 AIC,几乎不增加计算成本。
定义与公式
AICc 的标准定义为:
将 AIC 的表达式代入可得等价形式:
也可写作:
其中 为有效样本容量, 为模型中待估参数的总数(通常包括截距项和误差方差参数)。修正项 是 AICc 区别于 AIC 的关键:该修正项随 的增加呈二次增长,在小样本下提供了比 AIC 更强的惩罚力度。
当 远大于 时,有 ,修正项趋近于零,AICc 收敛于 AIC。当 时,修正项的影响显著,建议优先使用 AICc。值得注意的是,AICc 要求 ,即样本容量必须大于参数个数加一,否则修正项分母非正,准则无定义。
推导原理
AICc 的推导基于 KL 散度(Kullback-Leibler divergence)期望值的无偏估计。设真实数据生成过程密度为 ,候选模型密度为 ,其中 为 的最大似然估计。AIC 的目标是估计期望 KL 散度 ,但 AIC 的偏差校正项 仅为一阶渐近近似。
在线性回归模型 , 的设定下,Sugiura 推导出精确的偏差校正项为 。经过适当变换并略去仅依赖于 的常数项后,得到 AICc 的简洁形式。对于非线性模型和非正态误差情形,AICc 虽然不再严格精确,但蒙特卡洛模拟研究表明其在小样本下仍显著优于 AIC。
从信息论视角看,惩罚项 可理解为模型复杂度在有限样本下的"有效代价"。小样本情境中,每个参数估计的不确定性更大,模型自由度相对于可用信息量更为昂贵,AICc 的惩罚项恰好反映了这一边际成本递增的特征。
与 AIC、BIC 的比较
AICc、AIC 和贝叶斯信息准则(BIC,也称 Schwarz 准则)是应用最广泛的三种信息准则。三者的核心结构均为"拟合优度项 + 惩罚项":
BIC 的惩罚项 随样本量对数增长,在大样本下惩罚力度远强于 AIC,且 BIC 具有模型选择一致性。AIC 和 AICc 则基于预测误差最小化,不要求真实模型存在于候选集合中,倾向于选择预测能力最优的模型,但非一致的。在实际应用中,当研究目标为预测时优先使用 AICc,当目标是识别真实模型结构时 BIC 可能更合适。
应用与使用建议
AICc 广泛应用于各类统计建模场景。在自回归移动平均模型(ARMA/ARIMA)的定阶中,AICc 是选择滞后阶数的标准工具。在多元线性回归的子集选择中,AICc 用于在全子集回归或逐步回归过程中评判不同变量组合的优劣。在混合效应模型和广义可加模型中,AICc 的推广形式用于比较不同平滑参数和随机效应结构的模型。
使用 AICc 的一般实践准则如下:首先确保所有候选模型拟合于同一数据集且因变量一致;其次,计算各模型的 AICc 值(通常由统计软件直接输出);然后计算各模型相对于最优模型的 ;通常认为 的模型具有实质性的经验支持, 的模型支持较弱, 的模型基本可忽略。还可进一步计算赤池权重 ,用于多模型推断和模型平均。
需注意 AICc 不能用于比较不同数据变换下的模型(如对数变换前后的因变量),此时需采用修正方法或改用基于交叉验证的评估策略。此外,当数据存在强相依结构(如空间自相关或聚类)时,有效样本量 的界定需特别审慎。
局限性
尽管 AICc 在小样本下显著优于 AIC,但并非适用于所有情境。首先,AICc 的推导假设模型参数通过最大似然法估计,对于采用广义矩估计(GMM)、分位数回归或贝叶斯方法估计的模型,标准 AICc 形式不再适用,需采用相应的修正版本(如 DIC、WAIC 或 GMM-AIC)。其次,当候选模型之间不存在嵌套关系且似然函数不可比时(如不同分布族之间的选择),信息准则的比较需格外谨慎。最后,在超高维设定中(即 接近甚至大于 的情形),AICc 因分母为负而失效,此时应转向正则化方法(如 LASSO、弹性网络)或使用高维信息准则(如 EBIC、mBIC)。在实际操作中,主流统计软件如 R 的 \texttt{AICcmodavg} 包和 Python 的 \texttt{statsmodels} 库均内置了 AICc 计算接口,使用者无需手动编程即可完成多模型比较与选择。