ARTICLE
后验分布
后验分布 (Posterior Distribution) 后验分布(Posterior Distribution)是贝叶斯统计(Bayesian Statistics)理论的核心概念,也是进行贝叶斯推断(Bayesian Inference)的最终产物。它是在观测到新数据或证据之后,对模型参数(Parameter)的不确定性进行的更新和重新评估。简而言之,
后验分布 (Posterior Distribution)
后验分布(Posterior Distribution)是贝叶斯统计(Bayesian Statistics)理论的核心概念,也是进行贝叶斯推断(Bayesian Inference)的最终产物。它是在观测到新数据或证据之后,对模型参数(Parameter)的不确定性进行的更新和重新评估。简而言之,后验分布融合了我们对参数的先验信念和从数据中获得的证据,从而形成一个更为精确和可靠的概率分布。
后验分布的计算基于经典的贝叶斯定理(Bayes' Theorem)。对于一个给定的参数 和观测到的数据 ,后验分布可表示为:
这一公式的四个组成部分各有其明确的统计学含义:
- :后验分布——观测到数据 后参数 的概率分布,量化了更新后的信念。
- :似然函数(Likelihood Function)——在给定参数值 下观测到数据 的概率,是连接数据与参数的桥梁,体现了数据对参数的支持程度。
- :先验分布(Prior Distribution)——观测数据前对 的初始信念,可基于历史数据、专家意见或无信息假设。
- :边际似然(Marginal Likelihood)或称证据(Evidence)——,在参数推断中是与 无关的归一化常数,确保后验分布的总概率积分为1。
后验、似然与先验的关系
由于边际似然 的计算通常涉及高维积分,实践中常用比例形式表达贝叶斯更新的本质:
即后验正比于似然乘以先验。这一简洁关系表明:数据的证据(通过似然函数)对先验信念进行修正,形成更新后的后验信念。后验分布的形状完全由似然函数和先验分布的乘积决定,而随着数据量的增加,似然函数的作用将逐渐压倒先验分布的影响。
教学示例:估计硬币的公平性
假设要估计一枚硬币抛出正面的概率 。
第一步——选择先验分布 :在未做任何实验时,一个合理的假设是 在 上均匀分布,即 ,这是一种典型的无信息先验(Non-informative Prior),表示对所有可能取值一视同仁。
第二步——确定似然函数 :抛掷硬币10次,观测到7次正面、3次反面。每次抛掷独立且服从伯努利分布(Bernoulli Distribution),因此10次试验中出现7次正面的概率遵循二项分布(Binomial Distribution):
第三步——计算后验分布:应用比例形式的贝叶斯定理,并省略与 无关的常数项(仅保留分布的核\,[Kernel]):
该形式可识别为 分布的核,因为 的概率密度正比于 。此处先验的均匀分布等价于 ,后验参数更新为 ,,这展示了Beta-二项共轭体系下后验参数更新的简洁规则:将成功与失败次数分别累加到先验参数上。
第四步——解释后验分布: 的后验均值为 ,后验众数为 (与观测频率一致)。还可以计算95\%可信区间(Credible Interval),如 ,直接量化了估计的不确定性。与频率学派的置信区间不同,可信区间具有直接的频率解释:参数 有95\%的概率落在此区间内。
先验分布的选择
先验的选择是贝叶斯分析的关键环节,也是最具争议性的部分。当数据量足够大时,似然函数主导后验,不同先验的影响减弱。
- 共轭先验(Conjugate Prior):若后验与先验属同一分布族,则该先验是似然函数的共轭先验。上例中Beta分布就是二项似然的共轭先验。常见的共轭配对包括:正态-正态(均值未知,方差已知)、Gamma-泊松、Dirichlet-多项等。共轭先验极大地简化了数学计算,使后验可通过解析形式直接写出。
- 信息先验(Informative Prior):若已有强烈的先验知识,可选择集中于特定值附近的先验。例如若已有研究表明硬币几乎公平,可使用 ,其先验均值为0.5且集中度极高。信息先验在样本量较小时尤其有用,能有效将领域知识注入模型。
- 无信息先验(Non-informative Prior):当缺乏先验知识时使用,旨在让数据主导推断。常见选择包括均匀分布、Jeffreys先验等。Jeffreys先验具有参数变换不变性的优良特性。
后验分布的计算方法
在实际复杂模型中,后验分布往往没有解析形式,需借助数值方法近似。马尔可夫链蒙特卡洛(MCMC)方法是当前最主流的后验采样技术,其中Gibbs采样和Metropolis-Hastings算法尤为常用。这些方法通过构造一条以目标后验分布为平稳分布的马尔可夫链,从后验中抽取样本,进而用样本均值、分位数等经验统计量逼近后验的各种特征。近年来,变分推断(Variational Inference)作为一种更快速的近似替代方案也获得了广泛关注,它将后验逼近问题转化为一个优化问题,通过最小化KL散度在预定义的简便分布族中寻找最佳近似。
总结
后验分布是贝叶斯推断的终极目标,它将先验知识与数据证据系统性结合,提供关于未知参数的完整概率描述。与单一点估计不同,它不仅能指出参数最可能的值,还能精确量化估计的不确定性,从而支持更加审慎和透明的决策过程。这一框架的统一性和灵活性使其成为现代统计学、计量经济学(Econometrics)和机器学习(Machine Learning)中极为强大的分析工具,在层次模型、贝叶斯网络和概率编程等前沿领域发挥着日益重要的作用。从计量经济学的贝叶斯VAR模型到机器学习的高斯过程与贝叶斯优化,后验分布作为统一的不确定性量化语言贯穿始终。