ARTICLE

边际似然

边际似然 (Marginal Likelihood) 边际似然 (Marginal Likelihood),在贝叶斯统计中也称为证据 (Evidence) 或积分似然 (Integrated Likelihood),是贝叶斯统计推断和模型比较中的核心概念。它定义为在给定模型 M 的前提下,观测数据 y 的边际概率,通过对模型的所有参数 进行积分得到: 其中

浏览 0 更新 2025-11-21

边际似然 (Marginal Likelihood)

边际似然 (Marginal Likelihood),在贝叶斯统计中也称为证据 (Evidence) 或积分似然 (Integrated Likelihood),是贝叶斯统计推断和模型比较中的核心概念。它定义为在给定模型 MM 的前提下,观测数据 yy 的边际概率,通过对模型的所有参数 θ\theta 进行积分得到:

p(yM)=p(yθ,M)p(θM)dθp(y \mid M) = \int p(y \mid \theta, M) \, p(\theta \mid M) \, d\theta

其中 p(yθ,M)p(y \mid \theta, M)似然函数p(θM)p(\theta \mid M) 是参数的先验分布。边际似然将所有参数空间上的可能性按其先验权重进行加权平均,反映了模型在观察到数据之前的预测能力。

在贝叶斯推断中的角色

在贝叶斯定理中,边际似然出现在分母位置,是归一化常数:

p(θy,M)=p(yθ,M)p(θM)p(yM)p(\theta \mid y, M) = \frac{p(y \mid \theta, M) \, p(\theta \mid M)}{p(y \mid M)}

它确保后验分布积分为1。在模型选择中,边际似然通过贝叶斯因子进行模型比较:

BF12=p(yM1)p(yM2)\text{BF}_{12} = \frac{p(y \mid M_1)}{p(y \mid M_2)}

贝叶斯因子衡量了数据支持模型 M1M_1 相对于 M2M_2 的强度。它天然地惩罚过复杂模型,体现了贝叶斯奥卡姆剃刀原则:复杂模型的先验分布在更高维空间中更加分散,导致其似然峰值附近的先验密度较低,从而降低了边际似然值。与频率主义似然比检验不同,这一惩罚是自动实现的,不需要显式调整。

计算挑战

边际似然的计算极具挑战性,因为涉及高维参数空间的多重积分。除共轭先验下的线性回归模型等少数情况外,通常没有解析解。常用计算方法包括拉普拉斯近似(二次泰勒展开)、重要性抽样桥接抽样马尔可夫链蒙特卡洛热力学积分,以及变分贝叶斯下界 (ELBO)。其中调和均值估计量虽简单但方差过大,在实践中被认为不可靠。

与信息准则的关系

边际似然与贝叶斯信息准则 (BIC) 密切相关:在样本量较大且先验信息较少时,logp(yM)12BIC\log p(y \mid M) \approx -\frac{1}{2}\text{BIC}。但BIC省略了对先验分布的显式依赖,而真正的边际似然需要明确的先验设定。相比之下,赤池信息准则 (AIC) 源于频率主义的预测误差框架,理论基础完全不同。

应用

边际似然广泛应用于贝叶斯模型平均 (BMA),以边际似然为权重对不同模型进行加权平均,降低模型不确定性带来的风险。在机器学习中,自动相关性判定 (ARD) 通过边际似然优化超参数,自动调整各特征的权重。在系统发育学中,边际似然用于比较不同的进化树模型。

总结

边际似然是贝叶斯统计中连接参数推断与模型选择的纽带。它通过积分运算自然实现了对模型复杂度的惩罚,避免了频率主义方法中需要显式调整的做法。尽管计算困难,但随着拉普拉斯近似、桥接抽样和变分推理等方法的不断发展,边际似然在实际应用中的可及性已显著提高。理解边际似然的本质和局限性,是进行严谨贝叶斯建模的基础。