ARTICLE

边缘似然

边缘似然（Marginal Likelihood），又称证据（Evidence）或集成似然（Integrated Likelihood），是贝叶斯统计中一个核心概念，指在给定统计模型下观测数据的概率，通过对模型参数的全部可能值进行积分（或求和）得到。其数学定义为：其中 p( y , M) 是似然函数， p( M) 是先验分布，积分区域覆盖整个参数空间。边

浏览 4 更新 2025-11-08

边缘似然（Marginal Likelihood），又称证据（Evidence）或集成似然（Integrated Likelihood），是贝叶斯统计中一个核心概念，指在给定统计模型下观测数据的概率，通过对模型参数的全部可能值进行积分（或求和）得到。其数学定义为：

p(\mathbf{y} \mid \mathcal{M}) = \int p(\mathbf{y} \mid \boldsymbol{\theta}, \mathcal{M}) \, p(\boldsymbol{\theta} \mid \mathcal{M}) \, d\boldsymbol{\theta}

其中 $p(\mathbf{y} \mid \boldsymbol{\theta}, \mathcal{M})$ 是似然函数， $p(\boldsymbol{\theta} \mid \mathcal{M})$ 是先验分布，积分区域覆盖整个参数空间 $\Theta$ 。边缘似然将似然函数对先验分布进行加权平均，反映了模型 $\mathcal{M}$ 对数据 $\mathbf{y}$ 的整体拟合能力，同时自动对模型复杂度进行惩罚——这是它与普通极大似然值的根本区别。

在贝叶斯推断中的角色

边缘似然出现在贝叶斯定理的分母中，作为归一化常数确保后验分布积分为一：

p(\boldsymbol{\theta} \mid \mathbf{y}, \mathcal{M}) = \frac{p(\mathbf{y} \mid \boldsymbol{\theta}, \mathcal{M}) \, p(\boldsymbol{\theta} \mid \mathcal{M})}{p(\mathbf{y} \mid \mathcal{M})}

因此，任何需要后验分布计算的任务都隐含涉及边缘似然。然而在许多实际应用中（如MCMC采样），只需知道后验的核（即未归一化的密度）即可，无需显式计算边缘似然。

模型选择与贝叶斯因子

边缘似然最重要的应用是贝叶斯模型比较。给定两个竞争模型 $\mathcal{M}_1$ 和 $\mathcal{M}_2$ ，可以通过贝叶斯因子（Bayes Factor）进行选择：

\text{BF}_{12} = \frac{p(\mathbf{y} \mid \mathcal{M}_1)}{p(\mathbf{y} \mid \mathcal{M}_2)}

贝叶斯因子衡量了数据支持模型 $\mathcal{M}_1$ 相对于 $\mathcal{M}_2$ 的强度。相较于传统假设检验中的 $p$ 值，贝叶斯因子具有直观的概率解释，且自然地惩罚了过拟合：复杂的模型由于先验分布在更大的参数空间上弥散，其边缘似然的加权平均值会被拉低，除非额外的复杂度确实带来了显著的数据拟合改善。Jeffreys（1961）提出了贝叶斯因子的解释尺度，例如 BF > 10 表示强证据，BF > 100 表示决定性证据。

计算挑战

边缘似然的计算涉及高维积分，通常是解析不可行的，尤其在高维参数空间或复杂模型（如混合模型、高斯过程）中。常用的计算方法包括：

拉普拉斯近似（Laplace Approximation）：用高斯分布近似后验的众数，将积分简化为解析形式。速度快，但在参数远离众数时精度有限。
贝叶斯信息准则（BIC）：通过 Schwarz 近似，将边缘似然简化为 $\ln p(\mathbf{y} \mid \mathcal{M}) \approx \ln p(\mathbf{y} \mid \hat{\boldsymbol{\theta}}, \mathcal{M}) - \frac{k}{2}\ln n$ ，其中 $k$ 为参数个数， $n$ 为样本量。BIC 只需极大似然估计即可计算，是大样本下的渐近近似。
重要性采样和桥接采样（Bridge Sampling）：通过蒙特卡洛方法估计归一化常数之比，是计算贝叶斯因子的主流方法之一。
Nested Sampling（嵌套采样）：由 Skilling（2006）提出，通过将高维积分转化为一维积分来求解，特别适用于多峰后验分布。
和谐均值估计（Harmonic Mean Estimator）：基于后验样本的调和均值估计边缘似然，虽简单但方差极大且可能发散，不推荐使用。

与先验敏感性的关系

边缘似然对先验分布的选取敏感。使用扩散先验（vague prior）时，由于先验在广阔区域上趋于平坦，边缘似然值会被人为压低——这一现象被称为林德利悖论（Lindley's Paradox）的变体。因此，在模型比较中使用边缘似然或贝叶斯因子时，需谨慎选择先验，尤其应避免使用不恰当的扩散先验。使用贝叶斯因子时通常推荐采用合理的、信息量适中的先验分布，或使用部分贝叶斯因子（Fractional Bayes Factor）等稳健替代方法。

总结

边缘似然是贝叶斯统计中连接参数推断和模型选择的桥梁。它将模型复杂度与数据拟合能力有机统一在单一数值中，为奥卡姆剃刀原则提供了概率论的数学表达。尽管其计算具有挑战性，各种近似方法的发展使其在机器学习、计量经济学、生物统计等领域的模型选择中得到了广泛应用。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。