ARTICLE

后验分布

后验分布 (Posterior Distribution) 后验分布（Posterior Distribution）是贝叶斯统计（Bayesian Statistics）理论的核心概念，也是进行贝叶斯推断（Bayesian Inference）的最终产物。它是在观测到新数据或证据之后，对模型参数（Parameter）的不确定性进行的更新和重新评估。简而言之，

浏览 60 更新 2025-10-26

后验分布 (Posterior Distribution)

后验分布（Posterior Distribution）是贝叶斯统计（Bayesian Statistics）理论的核心概念，也是进行贝叶斯推断（Bayesian Inference）的最终产物。它是在观测到新数据或证据之后，对模型参数（Parameter）的不确定性进行的更新和重新评估。简而言之，后验分布融合了我们对参数的先验信念和从数据中获得的证据，从而形成一个更为精确和可靠的概率分布。

后验分布的计算基于经典的贝叶斯定理（Bayes' Theorem）。对于一个给定的参数 $\theta$ 和观测到的数据 $D$ ，后验分布可表示为：

P(\theta \mid D) = \frac{P(D \mid \theta) P(\theta)}{P(D)}

这一公式的四个组成部分各有其明确的统计学含义：

$P(\theta \mid D)$ ：后验分布——观测到数据 $D$ 后参数 $\theta$ 的概率分布，量化了更新后的信念。
$P(D \mid \theta)$ ：似然函数（Likelihood Function）——在给定参数值 $\theta$ 下观测到数据 $D$ 的概率，是连接数据与参数的桥梁，体现了数据对参数的支持程度。
$P(\theta)$ ：先验分布（Prior Distribution）——观测数据前对 $\theta$ 的初始信念，可基于历史数据、专家意见或无信息假设。
$P(D)$ ：边际似然（Marginal Likelihood）或称证据（Evidence）—— $P(D) = \int P(D \mid \theta) P(\theta) d\theta$ ，在参数推断中是与 $\theta$ 无关的归一化常数，确保后验分布的总概率积分为1。

后验、似然与先验的关系

由于边际似然 $P(D)$ 的计算通常涉及高维积分，实践中常用比例形式表达贝叶斯更新的本质：

P(\theta \mid D) \propto P(D \mid \theta) P(\theta)

即后验正比于似然乘以先验。这一简洁关系表明：数据的证据（通过似然函数）对先验信念进行修正，形成更新后的后验信念。后验分布的形状完全由似然函数和先验分布的乘积决定，而随着数据量的增加，似然函数的作用将逐渐压倒先验分布的影响。

教学示例：估计硬币的公平性

假设要估计一枚硬币抛出正面的概率 $\theta \in [0, 1]$ 。

第一步——选择先验分布 $P(\theta)$ ：在未做任何实验时，一个合理的假设是 $\theta$ 在 $[0, 1]$ 上均匀分布，即 $P(\theta) = 1$ ，这是一种典型的无信息先验（Non-informative Prior），表示对所有可能取值一视同仁。

第二步——确定似然函数 $P(D \mid \theta)$ ：抛掷硬币10次，观测到7次正面、3次反面。每次抛掷独立且服从伯努利分布（Bernoulli Distribution），因此10次试验中出现7次正面的概率遵循二项分布（Binomial Distribution）：

P(D \mid \theta) = \binom{10}{7} \theta^7 (1-\theta)^3

第三步——计算后验分布：应用比例形式的贝叶斯定理，并省略与 $\theta$ 无关的常数项（仅保留分布的核\,[Kernel]）：

P(\theta \mid D) \propto \theta^7 (1-\theta)^3

该形式可识别为 $\text{Beta}(8, 4)$ 分布的核，因为 $\text{Beta}(\alpha, \beta)$ 的概率密度正比于 $x^{\alpha-1}(1-x)^{\beta-1}$ 。此处先验的均匀分布等价于 $\text{Beta}(1, 1)$ ，后验参数更新为 $\alpha' = \alpha + 7 = 8$ ， $\beta' = \beta + 3 = 4$ ，这展示了Beta-二项共轭体系下后验参数更新的简洁规则：将成功与失败次数分别累加到先验参数上。

第四步——解释后验分布： $\text{Beta}(8, 4)$ 的后验均值为 $\frac{8}{8+4} \approx 0.667$ ，后验众数为 $\frac{8-1}{8+4-2} = 0.7$ （与观测频率一致）。还可以计算95\%可信区间（Credible Interval），如 $[0.39, 0.88]$ ，直接量化了估计的不确定性。与频率学派的置信区间不同，可信区间具有直接的频率解释：参数 $\theta$ 有95\%的概率落在此区间内。

先验分布的选择

先验的选择是贝叶斯分析的关键环节，也是最具争议性的部分。当数据量足够大时，似然函数主导后验，不同先验的影响减弱。

共轭先验（Conjugate Prior）：若后验与先验属同一分布族，则该先验是似然函数的共轭先验。上例中Beta分布就是二项似然的共轭先验。常见的共轭配对包括：正态-正态（均值未知，方差已知）、Gamma-泊松、Dirichlet-多项等。共轭先验极大地简化了数学计算，使后验可通过解析形式直接写出。
信息先验（Informative Prior）：若已有强烈的先验知识，可选择集中于特定值附近的先验。例如若已有研究表明硬币几乎公平，可使用 $\text{Beta}(50, 50)$ ，其先验均值为0.5且集中度极高。信息先验在样本量较小时尤其有用，能有效将领域知识注入模型。
无信息先验（Non-informative Prior）：当缺乏先验知识时使用，旨在让数据主导推断。常见选择包括均匀分布、Jeffreys先验等。Jeffreys先验具有参数变换不变性的优良特性。

后验分布的计算方法

在实际复杂模型中，后验分布往往没有解析形式，需借助数值方法近似。马尔可夫链蒙特卡洛（MCMC）方法是当前最主流的后验采样技术，其中Gibbs采样和Metropolis-Hastings算法尤为常用。这些方法通过构造一条以目标后验分布为平稳分布的马尔可夫链，从后验中抽取样本，进而用样本均值、分位数等经验统计量逼近后验的各种特征。近年来，变分推断（Variational Inference）作为一种更快速的近似替代方案也获得了广泛关注，它将后验逼近问题转化为一个优化问题，通过最小化KL散度在预定义的简便分布族中寻找最佳近似。

总结

后验分布是贝叶斯推断的终极目标，它将先验知识与数据证据系统性结合，提供关于未知参数的完整概率描述。与单一点估计不同，它不仅能指出参数最可能的值，还能精确量化估计的不确定性，从而支持更加审慎和透明的决策过程。这一框架的统一性和灵活性使其成为现代统计学、计量经济学（Econometrics）和机器学习（Machine Learning）中极为强大的分析工具，在层次模型、贝叶斯网络和概率编程等前沿领域发挥着日益重要的作用。从计量经济学的贝叶斯VAR模型到机器学习的高斯过程与贝叶斯优化，后验分布作为统一的不确定性量化语言贯穿始终。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。