# 先验分布 (Prior Distribution)
先验分布 (Prior Distribution),在{{{贝叶斯统计}}} (Bayesian statistics) 理论中,是一个核心且基础的概念。它表示在观测到任何实验{{{数据}}} (data) 之前,我们对于一个未知{{{参数}}} (parameter) $\theta$ 的信念或已有知识的{{{概率分布}}}。简而言之,先验分布是“先前”或“先验于”数据分析的信念的数学表达。
在贝叶斯推断的框架中,学习过程被形式化为一个更新信念的过程。我们从一个先验的信念(由先验分布描述)开始,通过观测到的数据(由{{{似然函数}}} (Likelihood Function) 描述)来更新这个信念,最终得到一个后验的信念,这个更新后的信念由{{{后验分布}}} (Posterior Distribution) 来描述。这个更新过程的核心是{{{贝叶斯定理}}} (Bayes' Theorem)。
## 在贝叶斯推断中的角色
贝叶斯定理是连接先验分布、似然和后验分布的桥梁。其数学形式如下:
$$ P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)} $$
其中: * $P(\theta | D)$ 是 后验分布,表示在观测到数据 $D$ 之后,参数 $\theta$ 的分布。这是我们推断的目标。 * $P(D | \theta)$ 是 似然函数,表示在给定参数 $\theta$ 的情况下,观测到数据 $D$ 的概率。它代表了数据所提供的信息。 * $P(\theta)$ 就是 先验分布,表示我们关于 $\theta$ 的初始信念。 * $P(D)$ 是 边际似然 (Marginal Likelihood) 或 证据 (Evidence),即 $P(D) = \int P(D | \theta) P(\theta) d\theta$(对于连续参数)。它是一个归一化常数,确保后验分布的积分(或求和)为1。
由于 $P(D)$ 不依赖于 $\theta$,我们通常可以将贝叶斯定理写成一个更简洁的比例形式,这更清晰地揭示了先验分布的作用:
$$ \underbrace{P(\theta | D)}_{\text{后验}} \propto \underbrace{P(D | \theta)}_{\text{似然}} \times \underbrace{P(\theta)}_{\text{先验}} $$
这个表达式的含义是:后验信念是数据提供的证据(似然)与初始信念(先验)相结合的结果。先验分布为我们的模型提供了一个起点,而数据则负责将我们的推断“拉”向更可能反映现实的方向。
## 先验分布的类型
如何选择先验分布是贝叶斯分析中的一个关键步骤,也是一个长期存在哲学和实践争议的领域。主要有以下几类先验分布:
1. 信息性先验 (Informative Priors)
信息性先验是指基于特定、实质性的外部信息来构建的先验分布。这些信息可能来自: * 之前的相关研究或实验。 * 该领域的专家知识。 * 物理定律或理论约束。
示例:假设我们想要估计一个城市成年男性的平均身高 $\mu$。根据常识和以往的人口普查数据,我们知道这个值非常可能在170厘米到180厘米之间,而几乎不可能是150厘米或200厘米。因此,我们可以选择一个以175厘米为中心、方差较小的{{{正态分布}}} $N(175, \sigma^2)$ 作为先验。 * 优点:当数据量较小时,一个好的信息性先验可以显著提高估计的准确性和稳定性。它允许我们将有价值的领域知识正式地融入模型中。 * 缺点:主观性强。一个错误或带有严重偏见的先验可能会主导推断结果,尤其是在数据较少时,导致结论被误导。
2. 无信息先验 (Uninformative Priors)
无信息先验,也称为模糊先验 (Vague Priors) 或 客观先验 (Objective Priors),其目的是尽可能少地对后验分布产生影响,旨在“让数据自己说话”。
* 均匀分布 (Uniform Distribution):一个简单直观的选择是在参数的所有可能值上赋予相等的概率。例如,对于一个取值在 $[0, 1]$ 之间的概率参数 $\theta$,我们可以使用 $P(\theta) = 1$ 的均匀先验。然而,均匀先验并非在所有情况下都是真正的“无信息”,因为它不具备参数化不变性 (Reparameterization Invariance)。例如,对 $\theta$ 的均匀先验并不意味着对 $\theta^2$ 也是均匀先验。
* 杰弗里斯先验 (Jeffreys Prior):这是一种更严谨的无信息先验,它满足参数化不变性。其定义与{{{费雪信息}}} (Fisher Information) $I(\theta)$ 有关: $$ P(\theta) \propto \sqrt{I(\theta)} $$ 杰弗里斯先验确保了无论我们如何对参数进行变换,推断结果都保持一致。例如,对于{{{伯努利分布}}}的参数 $p$,其杰弗里斯先验是 {{{贝塔分布}}} $\text{Beta}(1/2, 1/2)$。
3. 非正常先验 (Improper Priors)
非正常先验是指其在整个参数空间上的积分不为1(通常是发散的,即积分为 $\infty$)。例如,在估计一个正态分布的均值 $\mu$ 时,如果没有任何先验信息,可以在整个实数轴 $(-\infty, \infty)$上使用一个均匀分布,$P(\mu) = c$(其中 $c$ 是一个常数)。这个分布显然无法归一化。
* 使用条件:虽然先验本身是“非正常的”,但只要它与似然函数结合后得到的后验分布是正常的 (Proper),即后验分布可以被归一化(积分为1),那么这种使用就是有效的。如果后验分布也是非正常的,则无法进行有意义的推断。
4. 共轭先验 (Conjugate Priors)
在数学上,共轭性是一个非常便利的属性。如果一个先验分布族与一个似然函数族是共轭的,那么当先验来自该分布族时,其对应的后验分布也属于同一个分布族。
* 示例1:{{{贝塔分布}}}是{{{二项分布}}}(或{{{伯努利分布}}})似然函数的共轭先验。如果你使用一个 $\text{Beta}(\alpha, \beta)$ 先验来估计一个硬币为正面的概率 $\theta$,并且观测到 $n$ 次试验中有 $k$ 次正面,那么后验分布将是另一个贝塔分布 $\text{Beta}(\alpha+k, \beta+n-k)$。
* 示例2:{{{正态分布}}}是方差已知时正态分布似然函数关于均值的共轭先验。
* 优点:共轭先验极大地简化了计算。后验分布具有已知的解析形式,无需复杂的数值积分或{{{马尔可夫链蒙特卡洛方法}}} (MCMC)。在MCMC方法普及之前,共轭性是进行贝叶斯分析的主要手段。至今,它仍然因其数学上的简洁和可解释性而被广泛使用。
## 如何选择先验:实践与哲学
选择先验分布是贝叶斯建模的核心,也是其区别于{{{频率学派统计}}} (Frequentist Statistics) 的最显著特征之一。
* 主观性与客观性:对先验分布主观性的批评是频率学派对贝叶斯方法最常见的攻击点。客观贝叶斯主义者试图通过使用无信息先验(如杰弗里斯先验)来最小化主观影响。而主观贝叶斯主义者则认为,任何统计模型都包含主观选择(如模型假设、似然函数形式等),明确地陈述和量化先验信念是一种诚实和透明的建模方式。
* 敏感性分析 (Sensitivity Analysis):在实践中,一种标准的做法是进行敏感性分析。这意味着使用几个不同的、合理的先验分布(例如一个信息性先验、一个模糊先验、一个悲观的先验)来重复进行分析,然后检查后验分布对先验选择的敏感程度。 * 如果不同的先验选择导致了相似的后验结论,那么说明推断结果是稳健的 (robust),主要由数据驱动。 * 如果后验结论对先验选择高度敏感,这表明数据提供的信息量不足以压倒先验信念,此时研究者需要更加谨慎地解释结果,并明确指出结论对先验假设的依赖性。
* 数据量的影响:随着观测数据量的增加,似然函数的作用会越来越强,而先验分布的影响则会逐渐减弱。在一个拥有大量数据的“大数据”时代,只要先验分布没有将真实参数值的概率设为零,那么不同的合理先验通常会汇集到非常相似的后验分布上。这被称为贝叶斯学习的渐进行为,即最终数据会“压倒”先验。
## 总结
先验分布是贝叶斯统计的基石,它将关于未知参数的初始知识和不确定性以数学语言加以表达。它不是一个需要被“隐藏”或“避免”的主观因素,而是一个需要被明确、审慎选择并加以论证的模型组成部分。通过将先验知识与数据证据相结合,贝叶斯推断提供了一个动态、连贯的学习框架,使得我们能够在一个不确定的世界中,系统地更新我们的知识和信念。