ARTICLE

后验分布

后验分布 (Posterior Distribution) 后验分布(Posterior Distribution)是贝叶斯统计(Bayesian Statistics)理论的核心概念,也是进行贝叶斯推断(Bayesian Inference)的最终产物。它是在观测到新数据或证据之后,对模型参数(Parameter)的不确定性进行的更新和重新评估。简而言之,

浏览 60 更新 2025-10-26

后验分布 (Posterior Distribution)

后验分布(Posterior Distribution)是贝叶斯统计(Bayesian Statistics)理论的核心概念,也是进行贝叶斯推断(Bayesian Inference)的最终产物。它是在观测到新数据或证据之后,对模型参数(Parameter)的不确定性进行的更新和重新评估。简而言之,后验分布融合了我们对参数的先验信念和从数据中获得的证据,从而形成一个更为精确和可靠的概率分布。

后验分布的计算基于经典的贝叶斯定理(Bayes' Theorem)。对于一个给定的参数 θ \theta 和观测到的数据 D D ,后验分布可表示为:

P(θD)=P(Dθ)P(θ)P(D)P(\theta \mid D) = \frac{P(D \mid \theta) P(\theta)}{P(D)}

这一公式的四个组成部分各有其明确的统计学含义:

  • P(θD) P(\theta \mid D) 后验分布——观测到数据 D D 后参数 θ \theta 的概率分布,量化了更新后的信念。
  • P(Dθ) P(D \mid \theta) 似然函数(Likelihood Function)——在给定参数值 θ \theta 下观测到数据 D D 的概率,是连接数据与参数的桥梁,体现了数据对参数的支持程度。
  • P(θ) P(\theta) 先验分布(Prior Distribution)——观测数据前对 θ \theta 的初始信念,可基于历史数据、专家意见或无信息假设。
  • P(D) P(D) 边际似然(Marginal Likelihood)或称证据(Evidence)——P(D)=P(Dθ)P(θ)dθ P(D) = \int P(D \mid \theta) P(\theta) d\theta ,在参数推断中是与 θ \theta 无关的归一化常数,确保后验分布的总概率积分为1。

后验、似然与先验的关系

由于边际似然 P(D) P(D) 的计算通常涉及高维积分,实践中常用比例形式表达贝叶斯更新的本质:

P(θD)P(Dθ)P(θ)P(\theta \mid D) \propto P(D \mid \theta) P(\theta)

后验正比于似然乘以先验。这一简洁关系表明:数据的证据(通过似然函数)对先验信念进行修正,形成更新后的后验信念。后验分布的形状完全由似然函数和先验分布的乘积决定,而随着数据量的增加,似然函数的作用将逐渐压倒先验分布的影响。

教学示例:估计硬币的公平性

假设要估计一枚硬币抛出正面的概率 θ[0,1] \theta \in [0, 1]

第一步——选择先验分布 P(θ) P(\theta) 在未做任何实验时,一个合理的假设是 θ \theta [0,1] [0, 1] 上均匀分布,即 P(θ)=1 P(\theta) = 1 ,这是一种典型的无信息先验(Non-informative Prior),表示对所有可能取值一视同仁。

第二步——确定似然函数 P(Dθ) P(D \mid \theta) 抛掷硬币10次,观测到7次正面、3次反面。每次抛掷独立且服从伯努利分布(Bernoulli Distribution),因此10次试验中出现7次正面的概率遵循二项分布(Binomial Distribution):

P(Dθ)=(107)θ7(1θ)3P(D \mid \theta) = \binom{10}{7} \theta^7 (1-\theta)^3

第三步——计算后验分布:应用比例形式的贝叶斯定理,并省略与 θ \theta 无关的常数项(仅保留分布的\,[Kernel]):

P(θD)θ7(1θ)3P(\theta \mid D) \propto \theta^7 (1-\theta)^3

该形式可识别为 Beta(8,4) \text{Beta}(8, 4) 分布的核,因为 Beta(α,β) \text{Beta}(\alpha, \beta) 的概率密度正比于 xα1(1x)β1 x^{\alpha-1}(1-x)^{\beta-1} 。此处先验的均匀分布等价于 Beta(1,1) \text{Beta}(1, 1) ,后验参数更新为 α=α+7=8 \alpha' = \alpha + 7 = 8 β=β+3=4 \beta' = \beta + 3 = 4 ,这展示了Beta-二项共轭体系下后验参数更新的简洁规则:将成功与失败次数分别累加到先验参数上。

第四步——解释后验分布:Beta(8,4) \text{Beta}(8, 4) 后验均值88+40.667 \frac{8}{8+4} \approx 0.667 后验众数818+42=0.7 \frac{8-1}{8+4-2} = 0.7 (与观测频率一致)。还可以计算95\%可信区间(Credible Interval),如 [0.39,0.88] [0.39, 0.88] ,直接量化了估计的不确定性。与频率学派的置信区间不同,可信区间具有直接的频率解释:参数 θ \theta 有95\%的概率落在此区间内。

先验分布的选择

先验的选择是贝叶斯分析的关键环节,也是最具争议性的部分。当数据量足够大时,似然函数主导后验,不同先验的影响减弱。

  • 共轭先验(Conjugate Prior):若后验与先验属同一分布族,则该先验是似然函数的共轭先验。上例中Beta分布就是二项似然的共轭先验。常见的共轭配对包括:正态-正态(均值未知,方差已知)、Gamma-泊松、Dirichlet-多项等。共轭先验极大地简化了数学计算,使后验可通过解析形式直接写出。
  • 信息先验(Informative Prior):若已有强烈的先验知识,可选择集中于特定值附近的先验。例如若已有研究表明硬币几乎公平,可使用 Beta(50,50) \text{Beta}(50, 50) ,其先验均值为0.5且集中度极高。信息先验在样本量较小时尤其有用,能有效将领域知识注入模型。
  • 无信息先验(Non-informative Prior):当缺乏先验知识时使用,旨在让数据主导推断。常见选择包括均匀分布、Jeffreys先验等。Jeffreys先验具有参数变换不变性的优良特性。

后验分布的计算方法

在实际复杂模型中,后验分布往往没有解析形式,需借助数值方法近似。马尔可夫链蒙特卡洛(MCMC)方法是当前最主流的后验采样技术,其中Gibbs采样Metropolis-Hastings算法尤为常用。这些方法通过构造一条以目标后验分布为平稳分布的马尔可夫链,从后验中抽取样本,进而用样本均值、分位数等经验统计量逼近后验的各种特征。近年来,变分推断(Variational Inference)作为一种更快速的近似替代方案也获得了广泛关注,它将后验逼近问题转化为一个优化问题,通过最小化KL散度在预定义的简便分布族中寻找最佳近似。

总结

后验分布是贝叶斯推断的终极目标,它将先验知识与数据证据系统性结合,提供关于未知参数的完整概率描述。与单一点估计不同,它不仅能指出参数最可能的值,还能精确量化估计的不确定性,从而支持更加审慎和透明的决策过程。这一框架的统一性和灵活性使其成为现代统计学计量经济学(Econometrics)和机器学习(Machine Learning)中极为强大的分析工具,在层次模型贝叶斯网络概率编程等前沿领域发挥着日益重要的作用。从计量经济学的贝叶斯VAR模型到机器学习的高斯过程贝叶斯优化,后验分布作为统一的不确定性量化语言贯穿始终。