ARTICLE
边缘似然
边缘似然(Marginal Likelihood),又称证据(Evidence)或集成似然(Integrated Likelihood),是贝叶斯统计中一个核心概念,指在给定统计模型下观测数据的概率,通过对模型参数的全部可能值进行积分(或求和)得到。其数学定义为: 其中 p( y , M) 是似然函数, p( M) 是先验分布,积分区域覆盖整个参数空间 。边
边缘似然(Marginal Likelihood),又称证据(Evidence)或集成似然(Integrated Likelihood),是贝叶斯统计中一个核心概念,指在给定统计模型下观测数据的概率,通过对模型参数的全部可能值进行积分(或求和)得到。其数学定义为:
其中 是似然函数, 是先验分布,积分区域覆盖整个参数空间 。边缘似然将似然函数对先验分布进行加权平均,反映了模型 对数据 的整体拟合能力,同时自动对模型复杂度进行惩罚——这是它与普通极大似然值的根本区别。
在贝叶斯推断中的角色
边缘似然出现在贝叶斯定理的分母中,作为归一化常数确保后验分布积分为一:
因此,任何需要后验分布计算的任务都隐含涉及边缘似然。然而在许多实际应用中(如MCMC采样),只需知道后验的核(即未归一化的密度)即可,无需显式计算边缘似然。
模型选择与贝叶斯因子
边缘似然最重要的应用是贝叶斯模型比较。给定两个竞争模型 和 ,可以通过贝叶斯因子(Bayes Factor)进行选择:
贝叶斯因子衡量了数据支持模型 相对于 的强度。相较于传统假设检验中的 值,贝叶斯因子具有直观的概率解释,且自然地惩罚了过拟合:复杂的模型由于先验分布在更大的参数空间上弥散,其边缘似然的加权平均值会被拉低,除非额外的复杂度确实带来了显著的数据拟合改善。Jeffreys(1961)提出了贝叶斯因子的解释尺度,例如 BF > 10 表示强证据,BF > 100 表示决定性证据。
计算挑战
边缘似然的计算涉及高维积分,通常是解析不可行的,尤其在高维参数空间或复杂模型(如混合模型、高斯过程)中。常用的计算方法包括:
- 拉普拉斯近似(Laplace Approximation):用高斯分布近似后验的众数,将积分简化为解析形式。速度快,但在参数远离众数时精度有限。
- 贝叶斯信息准则(BIC):通过 Schwarz 近似,将边缘似然简化为 ,其中 为参数个数, 为样本量。BIC 只需极大似然估计即可计算,是大样本下的渐近近似。
- 重要性采样和桥接采样(Bridge Sampling):通过蒙特卡洛方法估计归一化常数之比,是计算贝叶斯因子的主流方法之一。
- Nested Sampling(嵌套采样):由 Skilling(2006)提出,通过将高维积分转化为一维积分来求解,特别适用于多峰后验分布。
- 和谐均值估计(Harmonic Mean Estimator):基于后验样本的调和均值估计边缘似然,虽简单但方差极大且可能发散,不推荐使用。
与先验敏感性的关系
边缘似然对先验分布的选取敏感。使用扩散先验(vague prior)时,由于先验在广阔区域上趋于平坦,边缘似然值会被人为压低——这一现象被称为林德利悖论(Lindley's Paradox)的变体。因此,在模型比较中使用边缘似然或贝叶斯因子时,需谨慎选择先验,尤其应避免使用不恰当的扩散先验。使用贝叶斯因子时通常推荐采用合理的、信息量适中的先验分布,或使用部分贝叶斯因子(Fractional Bayes Factor)等稳健替代方法。
总结
边缘似然是贝叶斯统计中连接参数推断和模型选择的桥梁。它将模型复杂度与数据拟合能力有机统一在单一数值中,为奥卡姆剃刀原则提供了概率论的数学表达。尽管其计算具有挑战性,各种近似方法的发展使其在机器学习、计量经济学、生物统计等领域的模型选择中得到了广泛应用。