ARTICLE

BIC

贝叶斯信息准则 (BIC) BIC→全称贝叶斯信息准则→亦称施瓦茨信息准则→1978年 Gideon E. Schwarz 提出→模型选择核心工具→衡拟合优度与模型复杂度→根植于贝叶斯理论。BIC=k (n)-2 ( L)→k=模型中待估参数数量→n=样本量→ L=最大化似然函数值。奖-2 ( L)→拟合越好→似然越大→此越负→降BIC。惩k (n)→参数越

浏览 3 更新 2025-10-26

贝叶斯信息准则 (BIC)

BIC→全称贝叶斯信息准则→亦称施瓦茨信息准则→1978年 Gideon E. Schwarz 提出→模型选择核心工具→衡拟合优度与模型复杂度→根植于贝叶斯理论。BIC=kln(n)2ln(L^)k\ln(n)-2\ln(\hat{L})→k=模型中待估参数数量→n=样本量L^\hat{L}=最大化似然函数值。奖2ln(L^)-2\ln(\hat{L})→拟合越好→似然越大→此越负→降BIC。惩kln(n)k\ln(n)→参数越多/样本越大→惩罚越重→升BIC。则:BIC最小者为首选模型→拟合优度与复杂度达最优平衡。

贝叶斯推导与理论性质

理基:BIC为模型边缘似然拉普拉斯近似2lnP(DM)kln(n)2ln(L^)=BIC-2\ln P(D|M)\approx k\ln(n)-2\ln(\hat{L})=\text{BIC}贝叶斯定理下→后验概率最高之模型→BIC最小者近似→最小化BIC等价于最大化模型后验概率。核心理论性质:一致性→若真实模型在候选集中→nn\to\infty时BIC以概率1选中真模→此区别于AIC之预测效率导向。推导依赖大样本近似与特定先验概率假设(单位信息先验)→故小样本下近似精度下降。

BIC vs AIC:详细比较

AIC=2k2ln(L^)2k-2\ln(\hat{L})→BIC=kln(n)2ln(L^)k\ln(n)-2\ln(\hat{L})。关键差异在惩罚项:

  • AIC惩2k2k→与样本量无关→始终轻→倾选稍复杂模型→求最小化预期Kullback-Leibler散度渐近有效→适预测导向研究。
  • BIC惩kln(n)k\ln(n)→当n8n\ge 8时(ln82.08>2\ln 8\approx 2.08>2)→BIC已重于AIC→且随n增大差益显著→倾选更简模型→求识别真实生成过程→一致→适解释/因果/结构研究。

在大数据时代→样本量动辄上万→lnn\ln n远大于2→BIC远比AIC更严厉惩罚复杂度→倾向远更简约的模型→此差异在高维统计机器学习中尤为突出。

使用方法与证据强度

步骤:给定候选模型集→分别拟合→计算各BIC值→选BIC最小者。模型间BIC差异Δi=BICiBICmin\Delta_i=\text{BIC}_i-\text{BIC}_{\min}衡量证据强度:0–2极弱→2–6弱→6–10强→>10极强证据支持最优模型。

局限性与注意事项

大样本近似:n较小时拉普拉斯近似不佳→小样本建议用AICc交叉验证。②真模在候选集中:一致性以此为前提→实践中未必满足→此仅理论保证。③先验假设:推导依赖特定先验→若实际先验异→结论可不同。④仅相对比较:BIC绝对值无意义→不跨不同数据/因变量比较。⑤嵌套与非嵌套:BIC可用于比较非嵌套模型→此优于似然比检验

口诀:拟好(L大)→参少(k小)→样本大者罚更重→BIC最小最好。核→BIC连极大似然贝叶斯后验→供一致模型选择框架→广用于线性回归变量选择/ARMA定阶/潜变量模型选/聚类分析定簇数/混合模型选分量数。