ARTICLE

贝叶斯信息准则 (BIC)

贝叶斯信息准则 (Bayesian Information Criterion, BIC) 贝叶斯信息准则 (Bayesian Information Criterion),简记为 BIC,也称为Schwarz准则 (Schwarz Criterion) 或 SBC,是由 Gideon Schwarz 于1978年基于贝叶斯框架推导的模型选择标准。BIC 为

浏览 0 更新 2026-05-27

贝叶斯信息准则 (Bayesian Information Criterion, BIC)

贝叶斯信息准则 (Bayesian Information Criterion),简记为 BIC,也称为Schwarz准则 (Schwarz Criterion) 或 SBC,是由 Gideon Schwarz 于1978年基于贝叶斯框架推导的模型选择标准。BIC 为每个候选模型计算一个信息量得分,得分越低表示模型在拟合度与简洁性之间的权衡越优。与广泛使用的赤池信息准则 (AIC) 相比,BIC 对参数数量的惩罚更重,因此倾向于选择更简洁的模型。在计量经济学统计学中,BIC 是滞后阶数选择、变量筛选和模型比较的标准工具之一。

数学定义与贝叶斯推导

对于具有 kk 个参数、基于样本量 nn 的模型,BIC 定义为:

BIC=2lnL(θ^)+klnn\text{BIC} = -2 \ln L(\hat{\theta}) + k \ln n

其中 L(θ^)L(\hat{\theta})极大似然估计下的似然函数值,第一项 2lnL(θ^)-2 \ln L(\hat{\theta}) 衡量模型的拟合偏差,第二项 klnnk \ln n 为对模型复杂度的惩罚项。与 AIC 的惩罚项 2k2k 相比,BIC 的惩罚项引入了样本量因子 lnn\ln n——当 n8n \geq 8lnn>2\ln n > 2,惩罚力度超过 AIC,且随样本扩大而递增。对于标准线性回归模型,假设误差服从正态分布 N(0,σ2)N(0, \sigma^2),BIC 等价形式为 nln(RSS/n)+klnnn \ln(\text{RSS}/n) + k \ln n

BIC 的贝叶斯推导提供了一种不同于 AIC 的哲学基础。假设候选模型集合 {M1,M2,,Mm}\{M_1, M_2, \ldots, M_m\},每个模型 MjM_j 对应参数向量 θj\theta_j 和先验概率 Pr(Mj)\Pr(M_j)。数据 XX 下模型 MjM_j 的后验概率由贝叶斯定理给出:

Pr(MjX)Pr(Mj)L(θjX,Mj)π(θjMj)dθj\Pr(M_j \mid X) \propto \Pr(M_j) \cdot \int L(\theta_j \mid X, M_j) \pi(\theta_j \mid M_j) \, d\theta_j

积分项为边际似然 (marginal likelihood)。在适当正则条件和均匀先验下,ln[Pr(MjX)]\ln [\Pr(M_j \mid X)] 的渐近展开式由 BIC 主导项给出。因此,选择 BIC 最小的模型近似等价于选择后验概率最大的模型——这一性质赋予 BIC 直接的概率解释。

模型选择中的一致性与应用

BIC 的一个关键性质是模型选择一致性:当真实数据生成过程属于候选模型集且样本量 nn \to \infty 时,BIC 以概率 1 选择真实模型。与之对照,AIC 在大样本下趋向于选择过于复杂的模型,因其惩罚不随样本量增长。这一差异源于两种准则的预测目标不同:AIC 旨在最小化预测误差(适用于预测导向的模型选择),BIC 旨在识别真实的生成机制(适用于结构建模)。

时间序列分析中,BIC 广泛用于确定自回归模型的滞后阶数。对于 AR(p) 模型的选择,随着样本增大,BIC 能准确识别真实阶数而 AIC 倾向于高估。在混合模型和聚类分析中,BIC 被用作确定成分数或簇数的默认准则。在线性回归中,BIC 配合逐步回归或全子集回归,用于从大量候选变量中筛选出最具解释力的简约模型。但需注意,BIC 的一致性依赖于真实模型在候选集中且数据来自该模型的严格假设——在实践中这些条件不易满足,BIC 和 AIC 的比较不应教条化,宜结合交叉验证和领域知识进行综合判断。