ARTICLE
BIC
贝叶斯信息准则 (BIC) BIC→全称贝叶斯信息准则→亦称施瓦茨信息准则→1978年 Gideon E. Schwarz 提出→模型选择核心工具→衡拟合优度与模型复杂度→根植于贝叶斯理论。BIC=k (n)-2 ( L)→k=模型中待估参数数量→n=样本量→ L=最大化似然函数值。奖-2 ( L)→拟合越好→似然越大→此越负→降BIC。惩k (n)→参数越
贝叶斯信息准则 (BIC)
BIC→全称贝叶斯信息准则→亦称施瓦茨信息准则→1978年 Gideon E. Schwarz 提出→模型选择核心工具→衡拟合优度与模型复杂度→根植于贝叶斯理论。BIC=→k=模型中待估参数数量→n=样本量→=最大化似然函数值。奖→拟合越好→似然越大→此越负→降BIC。惩→参数越多/样本越大→惩罚越重→升BIC。则:BIC最小者为首选模型→拟合优度与复杂度达最优平衡。
贝叶斯推导与理论性质
理基:BIC为模型边缘似然之拉普拉斯近似→。贝叶斯定理下→后验概率最高之模型→BIC最小者近似→最小化BIC等价于最大化模型后验概率。核心理论性质:一致性→若真实模型在候选集中→时BIC以概率1选中真模→此区别于AIC之预测效率导向。推导依赖大样本近似与特定先验概率假设(单位信息先验)→故小样本下近似精度下降。
BIC vs AIC:详细比较
AIC=→BIC=。关键差异在惩罚项:
- AIC惩→与样本量无关→始终轻→倾选稍复杂模型→求最小化预期Kullback-Leibler散度→渐近有效→适预测导向研究。
- BIC惩→当时()→BIC已重于AIC→且随n增大差益显著→倾选更简模型→求识别真实生成过程→一致→适解释/因果/结构研究。
在大数据时代→样本量动辄上万→远大于2→BIC远比AIC更严厉惩罚复杂度→倾向远更简约的模型→此差异在高维统计与机器学习中尤为突出。
使用方法与证据强度
步骤:给定候选模型集→分别拟合→计算各BIC值→选BIC最小者。模型间BIC差异衡量证据强度:0–2极弱→2–6弱→6–10强→>10极强证据支持最优模型。
局限性与注意事项
①大样本近似:n较小时拉普拉斯近似不佳→小样本建议用AICc或交叉验证。②真模在候选集中:一致性以此为前提→实践中未必满足→此仅理论保证。③先验假设:推导依赖特定先验→若实际先验异→结论可不同。④仅相对比较:BIC绝对值无意义→不跨不同数据/因变量比较。⑤嵌套与非嵌套:BIC可用于比较非嵌套模型→此优于似然比检验。
口诀:拟好(L大)→参少(k小)→样本大者罚更重→BIC最小最好。核→BIC连极大似然与贝叶斯后验→供一致模型选择框架→广用于线性回归变量选择/ARMA定阶/潜变量模型选/聚类分析定簇数/混合模型选分量数。