ARTICLE

贝叶斯信息准则 (Bayesian Information Criterion, BIC)

贝叶斯信息准则 (Bayesian Information Criterion, BIC) 贝叶斯信息准则(Bayesian Information Criterion, BIC),又称施瓦茨准则 (Schwarz Criterion),是统计学和计量经济学中用于模型选择的重要准则。它由吉迪恩·施瓦茨 (Gideon Schwarz) 于1978年提出,通过

浏览 0 更新 2025-10-26

贝叶斯信息准则 (Bayesian Information Criterion, BIC)

贝叶斯信息准则(Bayesian Information Criterion, BIC),又称施瓦茨准则 (Schwarz Criterion),是统计学计量经济学中用于模型选择的重要准则。它由吉迪恩·施瓦茨 (Gideon Schwarz) 于1978年提出,通过在模型的拟合优度与复杂度之间进行权衡,帮助研究者从一组候选模型中选出最优者。

定义

对于一个用极大似然估计的模型,BIC 定义为:

BIC=2lnL^+klnn\text{BIC} = -2 \ln \hat{L} + k \ln n

其中 L^\hat{L} 为模型的最大似然函数值,kk 为模型中待估参数的个数,nn 为样本量。BIC 值越小,模型越优。

第一项 2lnL^-2 \ln \hat{L} 衡量模型的拟合优度(越小表示拟合越好),第二项 klnnk \ln n 是对模型复杂度的惩罚项——参数越多,惩罚越大。这一结构体现了奥卡姆剃刀原则:在拟合效果相近时,应优先选择更简约的模型。

与AIC的比较

BIC 与赤池信息准则 (AIC) 是两种最常用的模型选择准则,二者形式相似但惩罚项不同:

  • AIC:2lnL^+2k-2\ln\hat{L} + 2k
  • BIC:2lnL^+klnn-2\ln\hat{L} + k\ln n

当样本量 n>e27.4n > e^2 \approx 7.4 时,BIC 的惩罚项 klnnk\ln n 大于 AIC 的 2k2k,因此 BIC 对复杂模型的惩罚更重,倾向于选择更简约的模型。

理论基础与性质

BIC 的理论基础来自贝叶斯推断:在一定的先验假设下,BIC/2-\text{BIC}/2 近似于模型边缘似然的对数。两个模型 BIC 之差近似于其贝叶斯因子的对数,从而 BIC 可用于近似贝叶斯模型比较。

BIC 具有相合性 (Consistency):当真实模型在候选集合中且样本量趋于无穷时,BIC 以概率1选出真实模型。相比之下,AIC 不具有相合性,但在预测精度(渐近有效性)方面通常表现更好。这反映了模型选择中"寻找真模型"与"优化预测"两种目标之间的根本张力。