ARTICLE

AICc

修正赤池信息准则 (AICc) AICc(Corrected Akaike Information Criterion,修正赤池信息准则)是赤池信息准则(AIC)的小样本修正版本,由 Sugiura (1978) 提出并经 Hurvich 与 Tsai (1989) 系统发展。AICc 在 AIC 的基础上引入与样本量和参数个数相关的二阶偏差校正项,旨在克服

浏览 0 更新 2025-11-28

修正赤池信息准则 (AICc)

AICc(Corrected Akaike Information Criterion,修正赤池信息准则)是赤池信息准则(AIC)的小样本修正版本,由 Sugiura (1978) 提出并经 Hurvich 与 Tsai (1989) 系统发展。AICc 在 AIC 的基础上引入与样本量和参数个数相关的二阶偏差校正项,旨在克服 AIC 在小样本场景下倾向于选择过度参数化模型的系统性偏差。该准则广泛用于模型选择回归分析时间序列分析计量经济学中的变量筛选问题。

背景与动机

经典 AIC 由赤池弘次于 1973 年提出,其定义为 AIC=2ln(L)+2k\text{AIC} = -2\ln(L) + 2k,其中 LL 为模型的最大似然函数值,kk 为待估参数个数。AIC 的推导依赖于最大似然估计量的渐近正态性,其偏差校正项 2k2k 仅在大样本下严格有效。当样本量 nn 较小或参数个数 kk 相对于 nn 较大时,AIC 对模型复杂度的惩罚力度不足,倾向于选择包含过多参数的模型,导致过拟合和预测能力下降。

Sugiura (1978) 在线性回归模型框架下推导出 AIC 在小样本下的精确无偏估计,Hurvich 与 Tsai (1989) 将其推广至更一般的统计模型,正式提出 AICc。Burnham 与 Anderson 在其经典著作《Model Selection and Multimodel Inference》中强烈建议在实际应用中始终使用 AICc 替代 AIC,因为当样本量增大时 AICc 自动收敛至 AIC,几乎不增加计算成本。

定义与公式

AICc 的标准定义为:

AICc=AIC+2k(k+1)nk1\text{AICc} = \text{AIC} + \frac{2k(k+1)}{n-k-1}

将 AIC 的表达式代入可得等价形式:

AICc=2ln(L)+2k+2k(k+1)nk1\text{AICc} = -2\ln(L) + 2k + \frac{2k(k+1)}{n-k-1}

也可写作:

AICc=2ln(L)+2knnk1\text{AICc} = -2\ln(L) + 2k \cdot \frac{n}{n-k-1}

其中 nn 为有效样本容量,kk 为模型中待估参数的总数(通常包括截距项和误差方差参数)。修正项 2k(k+1)nk1\frac{2k(k+1)}{n-k-1} 是 AICc 区别于 AIC 的关键:该修正项随 kk 的增加呈二次增长,在小样本下提供了比 AIC 更强的惩罚力度。

nn 远大于 kk 时,有 nnk11\frac{n}{n-k-1} \approx 1,修正项趋近于零,AICc 收敛于 AIC。当 n/k<40n/k < 40 时,修正项的影响显著,建议优先使用 AICc。值得注意的是,AICc 要求 n>k+1n > k+1,即样本容量必须大于参数个数加一,否则修正项分母非正,准则无定义。

推导原理

AICc 的推导基于 KL 散度(Kullback-Leibler divergence)期望值的无偏估计。设真实数据生成过程密度为 ff,候选模型密度为 g(θ^)g(\cdot|\hat{\theta}),其中 θ^\hat{\theta}θ\theta 的最大似然估计。AIC 的目标是估计期望 KL 散度 Ef[KL(f,g(θ^))]E_f[\text{KL}(f, g(\cdot|\hat{\theta}))],但 AIC 的偏差校正项 2k2k 仅为一阶渐近近似。

在线性回归模型 Y=Xβ+εY = X\beta + \varepsilonεN(0,σ2I)\varepsilon \sim N(0, \sigma^2 I) 的设定下,Sugiura 推导出精确的偏差校正项为 n(n+k)nk2n\frac{n(n+k)}{n-k-2} - n。经过适当变换并略去仅依赖于 nn 的常数项后,得到 AICc 的简洁形式。对于非线性模型和非正态误差情形,AICc 虽然不再严格精确,但蒙特卡洛模拟研究表明其在小样本下仍显著优于 AIC。

从信息论视角看,惩罚项 2knnk1\frac{2k n}{n-k-1} 可理解为模型复杂度在有限样本下的"有效代价"。小样本情境中,每个参数估计的不确定性更大,模型自由度相对于可用信息量更为昂贵,AICc 的惩罚项恰好反映了这一边际成本递增的特征。

与 AIC、BIC 的比较

AICc、AIC 和贝叶斯信息准则(BIC,也称 Schwarz 准则)是应用最广泛的三种信息准则。三者的核心结构均为"拟合优度项 + 惩罚项":

AIC=2ln(L)+2kAICc=2ln(L)+2k+2k(k+1)nk1BIC=2ln(L)+kln(n)\begin{aligned} \text{AIC} &= -2\ln(L) + 2k \\ \text{AICc} &= -2\ln(L) + 2k + \frac{2k(k+1)}{n-k-1} \\ \text{BIC} &= -2\ln(L) + k\ln(n) \end{aligned}

BIC 的惩罚项 kln(n)k\ln(n) 随样本量对数增长,在大样本下惩罚力度远强于 AIC,且 BIC 具有模型选择一致性。AIC 和 AICc 则基于预测误差最小化,不要求真实模型存在于候选集合中,倾向于选择预测能力最优的模型,但非一致的。在实际应用中,当研究目标为预测时优先使用 AICc,当目标是识别真实模型结构时 BIC 可能更合适。

应用与使用建议

AICc 广泛应用于各类统计建模场景。在自回归移动平均模型(ARMA/ARIMA)的定阶中,AICc 是选择滞后阶数的标准工具。在多元线性回归的子集选择中,AICc 用于在全子集回归或逐步回归过程中评判不同变量组合的优劣。在混合效应模型广义可加模型中,AICc 的推广形式用于比较不同平滑参数和随机效应结构的模型。

使用 AICc 的一般实践准则如下:首先确保所有候选模型拟合于同一数据集且因变量一致;其次,计算各模型的 AICc 值(通常由统计软件直接输出);然后计算各模型相对于最优模型的 Δi=AICciAICcmin\Delta_i = \text{AICc}_i - \text{AICc}_{\min};通常认为 Δi<2\Delta_i < 2 的模型具有实质性的经验支持,4<Δi<74 < \Delta_i < 7 的模型支持较弱,Δi>10\Delta_i > 10 的模型基本可忽略。还可进一步计算赤池权重 wi=exp(Δi/2)jexp(Δj/2)w_i = \frac{\exp(-\Delta_i/2)}{\sum_j \exp(-\Delta_j/2)},用于多模型推断和模型平均。

需注意 AICc 不能用于比较不同数据变换下的模型(如对数变换前后的因变量),此时需采用修正方法或改用基于交叉验证的评估策略。此外,当数据存在强相依结构(如空间自相关或聚类)时,有效样本量 nn 的界定需特别审慎。

局限性

尽管 AICc 在小样本下显著优于 AIC,但并非适用于所有情境。首先,AICc 的推导假设模型参数通过最大似然法估计,对于采用广义矩估计(GMM)、分位数回归或贝叶斯方法估计的模型,标准 AICc 形式不再适用,需采用相应的修正版本(如 DIC、WAIC 或 GMM-AIC)。其次,当候选模型之间不存在嵌套关系且似然函数不可比时(如不同分布族之间的选择),信息准则的比较需格外谨慎。最后,在超高维设定中(即 kk 接近甚至大于 nn 的情形),AICc 因分母为负而失效,此时应转向正则化方法(如 LASSO、弹性网络)或使用高维信息准则(如 EBIC、mBIC)。在实际操作中,主流统计软件如 R 的 \texttt{AICcmodavg} 包和 Python 的 \texttt{statsmodels} 库均内置了 AICc 计算接口,使用者无需手动编程即可完成多模型比较与选择。