ARTICLE

先验分布

先验分布 (Prior Distribution) 先验分布 (Prior Distribution),在贝叶斯统计 (Bayesian statistics) 理论中,是一个核心且基础的概念。它表示在观测到任何实验数据 (data) 之前,我们对于一个未知参数 (parameter) 的信念或已有知识的概率分布。简而言之,先验分布是"先前"或"先验于"数据

浏览 64 更新 2025-10-26

先验分布 (Prior Distribution)

先验分布 (Prior Distribution),在贝叶斯统计 (Bayesian statistics) 理论中,是一个核心且基础的概念。它表示在观测到任何实验数据 (data) 之前,我们对于一个未知参数 (parameter) θ \theta 的信念或已有知识的概率分布。简而言之,先验分布是"先前"或"先验于"数据分析的信念的数学表达。

在贝叶斯推断的框架中,学习过程被形式化为一个更新信念的过程。我们从一个先验的信念(由先验分布描述)开始,通过观测到的数据(由似然函数 (Likelihood Function) 描述)来更新这个信念,最终得到一个后验的信念,这个更新后的信念由后验分布 (Posterior Distribution) 来描述。这个更新过程的核心是贝叶斯定理 (Bayes' Theorem)。

在贝叶斯推断中的角色

贝叶斯定理是连接先验分布、似然和后验分布的桥梁。其数学形式如下:

P(θD)=P(Dθ)P(θ)P(D)P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}

其中:

  • P(θD) P(\theta | D) 后验分布,表示在观测到数据 D D 之后,参数 θ \theta 的分布。这是我们推断的目标。
  • P(Dθ) P(D | \theta) 似然函数,表示在给定参数 θ \theta 的情况下,观测到数据 D D 的概率。它代表了数据所提供的信息。
  • P(θ) P(\theta) 就是 先验分布,表示我们关于 θ \theta 的初始信念。
  • P(D) P(D) 边际似然 (Marginal Likelihood)证据 (Evidence),即 P(D)=P(Dθ)P(θ)dθ P(D) = \int P(D | \theta) P(\theta) d\theta (对于连续参数)。它是一个归一化常数,确保后验分布的积分(或求和)为1。

由于 P(D) P(D) 不依赖于 θ \theta ,我们通常可以将贝叶斯定理写成一个更简洁的比例形式,这更清晰地揭示了先验分布的作用:

P(θD)后验P(Dθ)似然×P(θ)先验\underbrace{P(\theta | D)}_{\text{后验}} \propto \underbrace{P(D | \theta)}_{\text{似然}} \times \underbrace{P(\theta)}_{\text{先验}}

这个表达式的含义是:后验信念是数据提供的证据(似然)与初始信念(先验)相结合的结果。先验分布为我们的模型提供了一个起点,而数据则负责将我们的推断"拉"向更可能反映现实的方向。

先验分布的类型

如何选择先验分布是贝叶斯分析中的一个关键步骤,也是一个长期存在哲学和实践争议的领域。主要有以下几类先验分布:

<h4>1. 信息性先验 (Informative Priors)</h4>

信息性先验是指基于特定、实质性的外部信息来构建的先验分布。这些信息可能来自:

  • 之前的相关研究或实验。
  • 该领域的专家知识。
  • 物理定律或理论约束。

示例:假设我们想要估计一个城市成年男性的平均身高 μ \mu 。根据常识和以往的人口普查数据,我们知道这个值非常可能在170厘米到180厘米之间,而几乎不可能是150厘米或200厘米。因此,我们可以选择一个以175厘米为中心、方差较小的正态分布 N(175,σ2) N(175, \sigma^2) 作为先验。

  • 优点:当数据量较小时,一个好的信息性先验可以显著提高估计的准确性和稳定性。它允许我们将有价值的领域知识正式地融入模型中。
  • 缺点:主观性强。一个错误或带有严重偏见的先验可能会主导推断结果,尤其是在数据较少时,导致结论被误导。

<h4>2. 无信息先验 (Uninformative Priors)</h4>

无信息先验,也称为模糊先验 (Vague Priors)客观先验 (Objective Priors),其目的是尽可能少地对后验分布产生影响,旨在"让数据自己说话"。

  • 均匀分布 (Uniform Distribution):一个简单直观的选择是在参数的所有可能值上赋予相等的概率。例如,对于一个取值在 [0,1] [0, 1] 之间的概率参数 θ \theta ,我们可以使用 P(θ)=1 P(\theta) = 1 的均匀先验。然而,均匀先验并非在所有情况下都是真正的"无信息",因为它不具备参数化不变性 (Reparameterization Invariance)。例如,对 θ \theta 的均匀先验并不意味着对 θ2 \theta^2 也是均匀先验。
  • 杰弗里斯先验 (Jeffreys Prior):这是一种更严谨的无信息先验,它满足参数化不变性。其定义与费雪信息 (Fisher Information) I(θ) I(\theta) 有关:
P(θ)I(θ) P(\theta) \propto \sqrt{I(\theta)}

杰弗里斯先验确保了无论我们如何对参数进行变换,推断结果都保持一致。例如,对于伯努利分布的参数 p p ,其杰弗里斯先验是 贝塔分布 Beta(1/2,1/2) \text{Beta}(1/2, 1/2)

<h4>3. 非正常先验 (Improper Priors)</h4>

非正常先验是指其在整个参数空间上的积分不为1(通常是发散的,即积分为 \infty )。例如,在估计一个正态分布的均值 μ \mu 时,如果没有任何先验信息,可以在整个实数轴 (,) (-\infty, \infty) 上使用一个均匀分布,P(μ)=c P(\mu) = c (其中 c c 是一个常数)。这个分布显然无法归一化。

  • 使用条件:虽然先验本身是"非正常的",但只要它与似然函数结合后得到的后验分布是正常的 (Proper),即后验分布可以被归一化(积分为1),那么这种使用就是有效的。如果后验分布也是非正常的,则无法进行有意义的推断。

<h4>4. 共轭先验 (Conjugate Priors)</h4>

在数学上,共轭性是一个非常便利的属性。如果一个先验分布族与一个似然函数族是共轭的,那么当先验来自该分布族时,其对应的后验分布也属于同一个分布族。

  • 示例1贝塔分布二项分布(或伯努利分布)似然函数的共轭先验。如果你使用一个 Beta(α,β) \text{Beta}(\alpha, \beta) 先验来估计一个硬币为正面的概率 θ \theta ,并且观测到 n n 次试验中有 k k 次正面,那么后验分布将是另一个贝塔分布 Beta(α+k,β+nk) \text{Beta}(\alpha+k, \beta+n-k)
  • 示例2正态分布是方差已知时正态分布似然函数关于均值的共轭先验。
  • 优点:共轭先验极大地简化了计算。后验分布具有已知的解析形式,无需复杂的数值积分或马尔可夫链蒙特卡洛方法 (MCMC)。在MCMC方法普及之前,共轭性是进行贝叶斯分析的主要手段。至今,它仍然因其数学上的简洁和可解释性而被广泛使用。

如何选择先验:实践与哲学

选择先验分布是贝叶斯建模的核心,也是其区别于频率学派统计 (Frequentist Statistics) 的最显著特征之一。

  • 主观性与客观性:对先验分布主观性的批评是频率学派对贝叶斯方法最常见的攻击点。客观贝叶斯主义者试图通过使用无信息先验(如杰弗里斯先验)来最小化主观影响。而主观贝叶斯主义者则认为,任何统计模型都包含主观选择(如模型假设、似然函数形式等),明确地陈述和量化先验信念是一种诚实和透明的建模方式。
  • 敏感性分析 (Sensitivity Analysis):在实践中,一种标准的做法是进行敏感性分析。这意味着使用几个不同的、合理的先验分布(例如一个信息性先验、一个模糊先验、一个悲观的先验)来重复进行分析,然后检查后验分布对先验选择的敏感程度。
  • 如果不同的先验选择导致了相似的后验结论,那么说明推断结果是稳健的 (robust),主要由数据驱动。
  • 如果后验结论对先验选择高度敏感,这表明数据提供的信息量不足以压倒先验信念,此时研究者需要更加谨慎地解释结果,并明确指出结论对先验假设的依赖性。
  • 数据量的影响:随着观测数据量的增加,似然函数的作用会越来越强,而先验分布的影响则会逐渐减弱。在一个拥有大量数据的"大数据"时代,只要先验分布没有将真实参数值的概率设为零,那么不同的合理先验通常会汇集到非常相似的后验分布上。这被称为贝叶斯学习的渐进行为,即最终数据会"压倒"先验。

总结

先验分布是贝叶斯统计的基石,它将关于未知参数的初始知识和不确定性以数学语言加以表达。它不是一个需要被"隐藏"或"避免"的主观因素,而是一个需要被明确、审慎选择并加以论证的模型组成部分。通过将先验知识与数据证据相结合,贝叶斯推断提供了一个动态、连贯的学习框架,使得我们能够在一个不确定的世界中,系统地更新我们的知识和信念。