ARTICLE

贝叶斯信息准则

贝叶斯信息准则 (Bayesian Information Criterion) 贝叶斯信息准则 (Bayesian Information Criterion)，通常缩写为 BIC，是统计学中用于模型选择的一个重要标准。由数学家 Gideon E. Schwarz 于 1978 年提出，因此也称为施瓦茨信息准则 (Schwarz Information

浏览 58 更新 2026-06-03

贝叶斯信息准则 (Bayesian Information Criterion)

贝叶斯信息准则 (Bayesian Information Criterion)，通常缩写为 BIC，是统计学中用于模型选择的一个重要标准。由数学家 Gideon E. Schwarz 于 1978 年提出，因此也称为 施瓦茨信息准则 (Schwarz Information Criterion, SIC)。BIC 在多个候选模型中选择最优模型时，提供了一种平衡模型拟合优度与模型复杂度的有效方法。其核心思想根植于贝叶斯理论，旨在识别最可能生成观测数据的模型。面对同一组数据的多个候选统计模型时，通常选择 BIC 值最小的模型。

公式与构成要素

BIC 的计算公式为：

\text{BIC} = k \ln(n) - 2 \ln(\hat{L})

其中各组成部分的含义如下：

$k$ ：模型中待估计的参数数量，代表模型的复杂度。例如在简单线性回归模型 $y = \beta_0 + \beta_1 x + \epsilon$ 中，待估计参数通常是 $\beta_0$ 、 $\beta_1$ 和误差项方差 $\sigma^2$ ，因此 $k=3$ 。更复杂的模型通常有更多参数，即更大的 $k$ 值。
$n$ ：观测数据的数量，即样本量。
$\hat{L}$ ：模型的最大化似然函数值（maximized value of the likelihood function）。这是在给定数据下通过调整模型参数所能得到的最大似然值。 $\hat{L}$ 反映了模型对数据的拟合优度， $\hat{L}$ 越大说明模型对数据的解释能力越强。
$\ln(\hat{L})$ ：最大化似然值的自然对数，即对数似然。实际计算中由于似然函数值可能非常小，通常使用对数似然以避免数值下溢。

公式的两个部分

BIC 公式可拆分为两个部分：

惩罚项 (Penalty Term)： $k \ln(n)$ 。这是 BIC 的核心，对模型复杂度施加惩罚。参数越多（ $k$ 越大），惩罚越重，BIC 值越大，体现了奥卡姆剃刀原理。惩罚力度随样本量 $n$ 增加而增大，因此在大规模数据集上 BIC 会比赤池信息准则 (AIC) 更严厉地惩罚复杂模型。
拟合项 (Goodness-of-fit Term)： $-2 \ln(\hat{L})$ 。奖励拟合优良的模型。对数似然 $\ln(\hat{L})$ 越大说明拟合越好，前面的负号使更大的 $\ln(\hat{L})$ 产生更小的 $-2 \ln(\hat{L})$ 值，从而降低总 BIC。

BIC 的本质是在拟合不足和过度拟合之间进行权衡。过于简单的模型拟合不佳（ $\ln(\hat{L})$ 很小，BIC 增大），过于复杂的模型则受严重惩罚（ $k$ 很大，BIC 增大）。最优模型是两者达到平衡的模型。

理论基础：贝叶斯模型选择

BIC 可从贝叶斯统计的框架中推导。在贝叶斯范式中，模型选择的目标是找到具有最高后验概率的模型。根据贝叶斯定理，给定数据 $D$ 时模型 $M$ 的后验概率为：

P(M|D) = \frac{P(D|M) P(M)}{P(D)}

其中 $P(M|D)$ 为模型后验概率， $P(D|M)$ 为模型的边缘似然（Marginal Likelihood，也称 Bayesian evidence）， $P(M)$ 为模型先验概率， $P(D)$ 为归一化常数。若假设所有候选模型的先验概率相等，则选择后验概率最高的模型等价于选择边缘似然最大的模型。

计算边缘似然需对所有参数 $\theta$ 积分：

P(D|M) = \int P(D|\theta, M) P(\theta|M) d\theta

BIC 正是通过对 $-2 \ln(P(D|M))$ 进行拉普拉斯近似得到的近似关系：

-2 \ln P(D|M) \approx k \ln(n) - 2 \ln(\hat{L}) = \text{BIC}

该近似揭示：最小化 BIC 值等价于最大化模型的近似边缘似然。因此 BIC 选择的模型在贝叶斯意义下最可能是真实的生成过程。BIC 的重要理论特性是一致性：若候选模型包含真实模型，当样本量 $n \to \infty$ 时 BIC 能以趋近 1 的概率选中真实模型。

BIC 与 AIC 的比较

赤池信息准则 (AIC) 是另一广泛使用的模型选择准则：

\text{AIC} = 2k - 2 \ln(\hat{L})

BIC 与 AIC 的主要区别在于惩罚项：AIC 为 $2k$ ，BIC 为 $k \ln(n)$ 。当 $n \ge 8$ 时（ $\ln(8) \approx 2.079 > 2$ ），BIC 的惩罚比 AIC 更大，且随样本量增加差异愈发显著。

导致了两者在模型选择上的不同倾向：BIC 对复杂度的惩罚更强，倾向于选择更简单的模型。理论上 AIC 的目标是最小化与真实模型之间的Kullback-Leibler散度，是渐近有效的准则但不保证选中真实模型；BIC 的目标是识别真实模型，是一致的准则。在适用场景上，预测导向的研究优先选用 AIC，解释或识别真实生成结构的研究则优先选用 BIC。

使用与解释

选择 BIC 最小的模型为最优模型。BIC 是相对度量，绝对值本身无意义，仅在模型间比较时有意义。模型间的 BIC 差异 $\Delta_i = \text{BIC}_i - \text{BIC}_{\min}$ 可衡量证据强度： $\Delta_i$ 在 0--2 之间为非常弱的证据，2--6 为弱证据，6--10 为强证据，大于 10 为非常强的证据。

局限性

BIC 基于大样本理论的近似，样本量 $n$ 较小时近似效果不佳。其推导假设特定的模型先验（如单位信息先验），若实际先验信念不同则可能不完全适用。真实模型必然在候选集中的一致性假设在现实中难以满足。BIC 不适用于比较用不同数据集拟合的模型。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。