ARTICLE

后验概率 (posterior probability)

后验概率 (Posterior Probability) 后验概率(Posterior Probability)是贝叶斯统计的核心概念,指在观测到数据(或证据)之后,对某一不确定事件或参数取值所赋予的更新后概率。与先验概率(观测数据前的主观信念)相对,后验概率通过贝叶斯法则将先验信息与数据中包含的似然信息进行形式化融合,体现了从"事前信念"到"事后信念"的完

浏览 0 更新 2025-10-26

后验概率 (Posterior Probability)

后验概率(Posterior Probability)是贝叶斯统计的核心概念,指在观测到数据(或证据)之后,对某一不确定事件或参数取值所赋予的更新后概率。与先验概率(观测数据前的主观信念)相对,后验概率通过贝叶斯法则将先验信息与数据中包含的似然信息进行形式化融合,体现了从"事前信念"到"事后信念"的完整学习过程。后验概率不仅是贝叶斯参数估计、假设检验和预测的基础,也在机器学习计量经济学和决策理论中发挥着关键作用。

定义与贝叶斯公式

θ\theta 为感兴趣的未知参数(或假设),x\mathbf{x} 为已观测到的样本数据。在贝叶斯框架下,θ\theta 被视为随机变量,其后验分布由贝叶斯定理给出:

P(θx)=P(xθ)P(θ)P(x)=P(xθ)P(θ)P(xθ)P(θ)dθP(\theta \mid \mathbf{x}) = \frac{P(\mathbf{x} \mid \theta) \, P(\theta)}{P(\mathbf{x})} = \frac{P(\mathbf{x} \mid \theta) \, P(\theta)}{\int P(\mathbf{x} \mid \theta') \, P(\theta') \, d\theta'}

其中各项具有明确的统计含义:

  • P(θ)P(\theta)先验概率(或先验密度),表征在观测数据之前对 θ\theta 的初始信念;
  • P(xθ)P(\mathbf{x} \mid \theta)似然函数,反映在给定参数 θ\theta 下观测到当前数据的概率(或密度);
  • P(x)P(\mathbf{x})边缘似然(Marginal Likelihood),也称归一化常数或模型证据,确保后验分布在整个参数空间上的积分(或求和)为1;
  • P(θx)P(\theta \mid \mathbf{x}) 即为后验概率(或后验密度),综合了先验与数据两方面信息。

由于边缘似然 P(x)P(\mathbf{x}) 不依赖于 θ\theta,在仅关注后验分布形状时,常使用比例形式:

P(θx)P(xθ)P(θ)P(\theta \mid \mathbf{x}) \propto P(\mathbf{x} \mid \theta) \, P(\theta)

后验 \propto 似然 ×\times 先验。这一简洁关系是贝叶斯推断中几乎所有计算的基础。

从信息更新的角度看,后验概率的本质是将先验不确定性通过观测数据的"过滤"而缩减。先验方差与后验方差的关系可以直观地刻画数据的信息增益:数据的信息量越大(样本量越大或信噪比越高),后验分布越集中于高似然区域,后验方差相对于先验方差收缩越显著。这一收缩行为是贝叶斯学习中"数据压倒先验"现象的定量表达,也是贝叶斯方法与频率学派方法在大样本下趋于一致的理论根源。

先验、似然与后验三者关系

后验概率可理解为先验信念在数据冲击下的"更新"。当样本量较小时,后验主要受先验主导;随着数据积累,似然函数逐渐压倒先验,后验向真实参数值集中——这是贝叶斯方法的一致性保证。

先验的选择直接影响后验的形态。共轭先验(Conjugate Prior)是一类使后验与先验属于同一分布族的先验分布,极大简化了计算。例如,二项抽样似然下,Beta分布作为先验,其后验仍为Beta分布:若先验为 θBeta(α,β)\theta \sim \text{Beta}(\alpha, \beta),观测到 nn 次试验中 kk 次成功,则后验为 θxBeta(α+k,β+nk)\theta \mid \mathbf{x} \sim \text{Beta}(\alpha + k, \beta + n - k)。正态-正态模型、泊松-伽马模型等亦属经典共轭结构。

当缺乏实质性先验信息时,可使用无信息先验(如均匀分布、Jeffreys先验),使后验主要由似然驱动,所得推断与频率学派方法在数值上接近但解释框架不同。

后验的汇总与推断

获得后验分布后,贝叶斯推断的三个核心汇总量为:

后验均值(Posterior Mean):θ^Bayes=E[θx]=θP(θx)dθ\hat{\theta}_{\text{Bayes}} = \mathbb{E}[\theta \mid \mathbf{x}] = \int \theta \, P(\theta \mid \mathbf{x}) \, d\theta,在平方损失下是最优点估计。

后验中位数:在绝对损失下最优,对重尾分布更稳健。

最高后验密度区间(HPDI):给定概率水平 1α1 - \alpha,HPDI是所有满足 P(θx)kP(\theta \mid \mathbf{x}) \geq k 的参数值构成的集合,是最短的贝叶斯可信区间。与之相比,等尾可信区间更易计算但区间长度通常略长。

后验概率也直接用于假设检验:比较两个假设 H0H_0H1H_1 时,计算后验优势比:

P(H1x)P(H0x)=P(xH1)P(xH0)P(H1)P(H0)\frac{P(H_1 \mid \mathbf{x})}{P(H_0 \mid \mathbf{x})} = \frac{P(\mathbf{x} \mid H_1)}{P(\mathbf{x} \mid H_0)} \cdot \frac{P(H_1)}{P(H_0)}

其中 P(xH1)P(xH0)\frac{P(\mathbf{x} \mid H_1)}{P(\mathbf{x} \mid H_0)} 即为贝叶斯因子,衡量数据对两个假设的相对支持程度。

计算与数值方法

除共轭情形外,后验分布通常无法获得解析形式,需借助数值方法。

马尔可夫链蒙特卡洛MCMC)是当前最主流的后验模拟方法。其核心思想是构造一条以目标后验分布为平稳分布的马尔可夫链,通过采样链的轨迹近似后验期望等积分量。常用算法包括Metropolis-Hastings算法吉布斯采样(Gibbs Sampling)。Hamiltonian Monte Carlo及其自适应变体(如Stan中的NUTS算法)通过利用梯度信息大幅提升了高维参数空间中的采样效率。

变分推断(Variational Inference)将后验近似问题转化为优化问题:在一族较简单的分布中寻找与真实后验KL散度最小的近似分布。其速度显著快于MCMC,尤其适用于大规模数据和复杂模型的场景,但以牺牲渐近精确性为代价。

后验预测分布

贝叶斯推断的另一重要产出是后验预测分布(Posterior Predictive Distribution)。给定已观测数据 x\mathbf{x},对未来观测 x~\tilde{x} 的预测分布为:

P(x~x)=P(x~θ)P(θx)dθP(\tilde{x} \mid \mathbf{x}) = \int P(\tilde{x} \mid \theta) \, P(\theta \mid \mathbf{x}) \, d\theta

该分布通过对参数后验分布积分来平均所有可能的参数值,从而自然地包含了参数不确定性——这不同于频率学派中先获取点估计再代入模型预测的两阶段做法。后验预测检查(Posterior Predictive Check)通过比较实际数据与后验预测分布下的模拟数据,为模型诊断提供了直观工具:若实际数据在后验预测分布下显得极端,则表明模型拟合存在系统性偏差。

应用与评述

后验概率在经济学和计量经济学中有广泛应用。在贝叶斯计量经济学中,VAR模型的贝叶斯估计通过Minnesota先验收缩系数空间,后验分布给出了脉冲响应函数的完整不确定性量化,使政策分析者可以在统一框架内评估冲击效应的概率分布。在微观计量中,分层贝叶斯模型利用后验分布同时估计个体层面和总体层面的参数,广泛应用于离散选择模型和营销响应建模,其后验推断自然地处理了个体异质性与总体均值的权衡。在资产定价中,投资者以贝叶斯方式更新对 regime-switching 模型各状态的后验概率,动态调整资产配置权重。在机器学习中,高斯过程回归贝叶斯神经网络均以后验分布为核心,不仅给出预测值还附带预测不确定性的完整度量。

贝叶斯后验的核心优势在于为不确定性提供完整的概率表达——参数估计、假设检验和预测均在同一后验范式下统一处理,避免了频率学派中p值、置信区间和预测区间各需独立构造的碎片化。其主要争议点在于先验选择的主观性可能影响小样本下的推断结论,但稳健性分析(考察不同先验下后验的敏感度)和渐近理论(大样本下先验影响消失)在相当程度上缓解了这一担忧。现代贝叶斯工作流强调先验预测检查和后验预测检查相结合,以确保主观先验选择确实反映了合理的领域知识而非武断假定。