ARTICLE

贝叶斯信息准则

贝叶斯信息准则 (Bayesian Information Criterion) 贝叶斯信息准则 (Bayesian Information Criterion),通常缩写为 BIC,是统计学中用于模型选择的一个重要标准。由数学家 Gideon E. Schwarz 于 1978 年提出,因此也称为 施瓦茨信息准则 (Schwarz Information

浏览 58 更新 2026-06-03

贝叶斯信息准则 (Bayesian Information Criterion)

贝叶斯信息准则 (Bayesian Information Criterion),通常缩写为 BIC,是统计学中用于模型选择的一个重要标准。由数学家 Gideon E. Schwarz 于 1978 年提出,因此也称为 施瓦茨信息准则 (Schwarz Information Criterion, SIC)。BIC 在多个候选模型中选择最优模型时,提供了一种平衡模型拟合优度与模型复杂度的有效方法。其核心思想根植于贝叶斯理论,旨在识别最可能生成观测数据的模型。面对同一组数据的多个候选统计模型时,通常选择 BIC 值最小的模型。

公式与构成要素

BIC 的计算公式为:

BIC=kln(n)2ln(L^)\text{BIC} = k \ln(n) - 2 \ln(\hat{L})

其中各组成部分的含义如下:

  • kk:模型中待估计的参数数量,代表模型的复杂度。例如在简单线性回归模型 y=β0+β1x+ϵy = \beta_0 + \beta_1 x + \epsilon 中,待估计参数通常是 β0\beta_0β1\beta_1 和误差项方差 σ2\sigma^2,因此 k=3k=3。更复杂的模型通常有更多参数,即更大的 kk 值。
  • nn:观测数据的数量,即样本量
  • L^\hat{L}:模型的最大化似然函数值(maximized value of the likelihood function)。这是在给定数据下通过调整模型参数所能得到的最大似然值。L^\hat{L} 反映了模型对数据的拟合优度L^\hat{L} 越大说明模型对数据的解释能力越强。
  • ln(L^)\ln(\hat{L}):最大化似然值的自然对数,即对数似然。实际计算中由于似然函数值可能非常小,通常使用对数似然以避免数值下溢。

公式的两个部分

BIC 公式可拆分为两个部分:

  1. 惩罚项 (Penalty Term)kln(n)k \ln(n)。这是 BIC 的核心,对模型复杂度施加惩罚。参数越多(kk 越大),惩罚越重,BIC 值越大,体现了奥卡姆剃刀原理。惩罚力度随样本量 nn 增加而增大,因此在大规模数据集上 BIC 会比赤池信息准则 (AIC) 更严厉地惩罚复杂模型。
  2. 拟合项 (Goodness-of-fit Term)2ln(L^)-2 \ln(\hat{L})。奖励拟合优良的模型。对数似然 ln(L^)\ln(\hat{L}) 越大说明拟合越好,前面的负号使更大的 ln(L^)\ln(\hat{L}) 产生更小的 2ln(L^)-2 \ln(\hat{L}) 值,从而降低总 BIC。

BIC 的本质是在拟合不足过度拟合之间进行权衡。过于简单的模型拟合不佳(ln(L^)\ln(\hat{L}) 很小,BIC 增大),过于复杂的模型则受严重惩罚(kk 很大,BIC 增大)。最优模型是两者达到平衡的模型。

理论基础:贝叶斯模型选择

BIC 可从贝叶斯统计的框架中推导。在贝叶斯范式中,模型选择的目标是找到具有最高后验概率的模型。根据贝叶斯定理,给定数据 DD 时模型 MM 的后验概率为:

P(MD)=P(DM)P(M)P(D)P(M|D) = \frac{P(D|M) P(M)}{P(D)}

其中 P(MD)P(M|D) 为模型后验概率,P(DM)P(D|M) 为模型的边缘似然(Marginal Likelihood,也称 Bayesian evidence),P(M)P(M) 为模型先验概率P(D)P(D) 为归一化常数。若假设所有候选模型的先验概率相等,则选择后验概率最高的模型等价于选择边缘似然最大的模型。

计算边缘似然需对所有参数 θ\theta 积分:

P(DM)=P(Dθ,M)P(θM)dθP(D|M) = \int P(D|\theta, M) P(\theta|M) d\theta

BIC 正是通过对 2ln(P(DM))-2 \ln(P(D|M)) 进行拉普拉斯近似得到的近似关系:

2lnP(DM)kln(n)2ln(L^)=BIC-2 \ln P(D|M) \approx k \ln(n) - 2 \ln(\hat{L}) = \text{BIC}

该近似揭示:最小化 BIC 值等价于最大化模型的近似边缘似然。因此 BIC 选择的模型在贝叶斯意义下最可能是真实的生成过程。BIC 的重要理论特性是一致性:若候选模型包含真实模型,当样本量 nn \to \infty 时 BIC 能以趋近 1 的概率选中真实模型。

BIC 与 AIC 的比较

赤池信息准则 (AIC) 是另一广泛使用的模型选择准则:

AIC=2k2ln(L^)\text{AIC} = 2k - 2 \ln(\hat{L})

BIC 与 AIC 的主要区别在于惩罚项:AIC 为 2k2k,BIC 为 kln(n)k \ln(n)。当 n8n \ge 8 时(ln(8)2.079>2\ln(8) \approx 2.079 > 2),BIC 的惩罚比 AIC 更大,且随样本量增加差异愈发显著。

导致了两者在模型选择上的不同倾向:BIC 对复杂度的惩罚更强,倾向于选择更简单的模型。理论上 AIC 的目标是最小化与真实模型之间的Kullback-Leibler散度,是渐近有效的准则但不保证选中真实模型;BIC 的目标是识别真实模型,是一致的准则。在适用场景上,预测导向的研究优先选用 AIC,解释或识别真实生成结构的研究则优先选用 BIC。

使用与解释

选择 BIC 最小的模型为最优模型。BIC 是相对度量,绝对值本身无意义,仅在模型间比较时有意义。模型间的 BIC 差异 Δi=BICiBICmin\Delta_i = \text{BIC}_i - \text{BIC}_{\min} 可衡量证据强度:Δi\Delta_i 在 0--2 之间为非常弱的证据,2--6 为弱证据,6--10 为强证据,大于 10 为非常强的证据。

局限性

BIC 基于大样本理论的近似,样本量 nn 较小时近似效果不佳。其推导假设特定的模型先验(如单位信息先验),若实际先验信念不同则可能不完全适用。真实模型必然在候选集中的一致性假设在现实中难以满足。BIC 不适用于比较用不同数据集拟合的模型。