ARTICLE

边缘似然

边缘似然(Marginal Likelihood),又称证据(Evidence)或集成似然(Integrated Likelihood),是贝叶斯统计中一个核心概念,指在给定统计模型下观测数据的概率,通过对模型参数的全部可能值进行积分(或求和)得到。其数学定义为: 其中 p( y , M) 是似然函数, p( M) 是先验分布,积分区域覆盖整个参数空间 。边

浏览 4 更新 2025-11-08

边缘似然(Marginal Likelihood),又称证据(Evidence)或集成似然(Integrated Likelihood),是贝叶斯统计中一个核心概念,指在给定统计模型下观测数据的概率,通过对模型参数的全部可能值进行积分(或求和)得到。其数学定义为:

p(yM)=p(yθ,M)p(θM)dθp(\mathbf{y} \mid \mathcal{M}) = \int p(\mathbf{y} \mid \boldsymbol{\theta}, \mathcal{M}) \, p(\boldsymbol{\theta} \mid \mathcal{M}) \, d\boldsymbol{\theta}

其中 p(yθ,M) p(\mathbf{y} \mid \boldsymbol{\theta}, \mathcal{M}) 是似然函数,p(θM) p(\boldsymbol{\theta} \mid \mathcal{M}) 是先验分布,积分区域覆盖整个参数空间 Θ \Theta 。边缘似然将似然函数对先验分布进行加权平均,反映了模型 M \mathcal{M} 对数据 y \mathbf{y} 的整体拟合能力,同时自动对模型复杂度进行惩罚——这是它与普通极大似然值的根本区别。

在贝叶斯推断中的角色

边缘似然出现在贝叶斯定理的分母中,作为归一化常数确保后验分布积分为一:

p(θy,M)=p(yθ,M)p(θM)p(yM)p(\boldsymbol{\theta} \mid \mathbf{y}, \mathcal{M}) = \frac{p(\mathbf{y} \mid \boldsymbol{\theta}, \mathcal{M}) \, p(\boldsymbol{\theta} \mid \mathcal{M})}{p(\mathbf{y} \mid \mathcal{M})}

因此,任何需要后验分布计算的任务都隐含涉及边缘似然。然而在许多实际应用中(如MCMC采样),只需知道后验的核(即未归一化的密度)即可,无需显式计算边缘似然。

模型选择与贝叶斯因子

边缘似然最重要的应用是贝叶斯模型比较。给定两个竞争模型 M1 \mathcal{M}_1 M2 \mathcal{M}_2 ,可以通过贝叶斯因子(Bayes Factor)进行选择:

BF12=p(yM1)p(yM2)\text{BF}_{12} = \frac{p(\mathbf{y} \mid \mathcal{M}_1)}{p(\mathbf{y} \mid \mathcal{M}_2)}

贝叶斯因子衡量了数据支持模型 M1 \mathcal{M}_1 相对于 M2 \mathcal{M}_2 的强度。相较于传统假设检验中的 p p 值,贝叶斯因子具有直观的概率解释,且自然地惩罚了过拟合:复杂的模型由于先验分布在更大的参数空间上弥散,其边缘似然的加权平均值会被拉低,除非额外的复杂度确实带来了显著的数据拟合改善。Jeffreys(1961)提出了贝叶斯因子的解释尺度,例如 BF > 10 表示强证据,BF > 100 表示决定性证据。

计算挑战

边缘似然的计算涉及高维积分,通常是解析不可行的,尤其在高维参数空间或复杂模型(如混合模型、高斯过程)中。常用的计算方法包括:

  • 拉普拉斯近似(Laplace Approximation):用高斯分布近似后验的众数,将积分简化为解析形式。速度快,但在参数远离众数时精度有限。
  • 贝叶斯信息准则(BIC):通过 Schwarz 近似,将边缘似然简化为 lnp(yM)lnp(yθ^,M)k2lnn \ln p(\mathbf{y} \mid \mathcal{M}) \approx \ln p(\mathbf{y} \mid \hat{\boldsymbol{\theta}}, \mathcal{M}) - \frac{k}{2}\ln n ,其中 k k 为参数个数,n n 为样本量。BIC 只需极大似然估计即可计算,是大样本下的渐近近似。
  • 重要性采样桥接采样(Bridge Sampling):通过蒙特卡洛方法估计归一化常数之比,是计算贝叶斯因子的主流方法之一。
  • Nested Sampling(嵌套采样):由 Skilling(2006)提出,通过将高维积分转化为一维积分来求解,特别适用于多峰后验分布。
  • 和谐均值估计(Harmonic Mean Estimator):基于后验样本的调和均值估计边缘似然,虽简单但方差极大且可能发散,不推荐使用。

与先验敏感性的关系

边缘似然对先验分布的选取敏感。使用扩散先验(vague prior)时,由于先验在广阔区域上趋于平坦,边缘似然值会被人为压低——这一现象被称为林德利悖论(Lindley's Paradox)的变体。因此,在模型比较中使用边缘似然或贝叶斯因子时,需谨慎选择先验,尤其应避免使用不恰当的扩散先验。使用贝叶斯因子时通常推荐采用合理的、信息量适中的先验分布,或使用部分贝叶斯因子(Fractional Bayes Factor)等稳健替代方法。

总结

边缘似然是贝叶斯统计中连接参数推断和模型选择的桥梁。它将模型复杂度与数据拟合能力有机统一在单一数值中,为奥卡姆剃刀原则提供了概率论的数学表达。尽管其计算具有挑战性,各种近似方法的发展使其在机器学习、计量经济学、生物统计等领域的模型选择中得到了广泛应用。