ARTICLE

先验分布

先验分布 (Prior Distribution) 先验分布 (Prior Distribution)，在贝叶斯统计 (Bayesian statistics) 理论中，是一个核心且基础的概念。它表示在观测到任何实验数据 (data) 之前，我们对于一个未知参数 (parameter) 的信念或已有知识的概率分布。简而言之，先验分布是"先前"或"先验于"数据

浏览 64 更新 2025-10-26

先验分布 (Prior Distribution)

先验分布 (Prior Distribution)，在贝叶斯统计 (Bayesian statistics) 理论中，是一个核心且基础的概念。它表示在观测到任何实验数据 (data) 之前，我们对于一个未知参数 (parameter) $\theta$ 的信念或已有知识的概率分布。简而言之，先验分布是"先前"或"先验于"数据分析的信念的数学表达。

在贝叶斯推断的框架中，学习过程被形式化为一个更新信念的过程。我们从一个先验的信念（由先验分布描述）开始，通过观测到的数据（由似然函数 (Likelihood Function) 描述）来更新这个信念，最终得到一个后验的信念，这个更新后的信念由后验分布 (Posterior Distribution) 来描述。这个更新过程的核心是贝叶斯定理 (Bayes' Theorem)。

在贝叶斯推断中的角色

贝叶斯定理是连接先验分布、似然和后验分布的桥梁。其数学形式如下：

P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}

其中：

$P(\theta | D)$ 是 后验分布，表示在观测到数据 $D$ 之后，参数 $\theta$ 的分布。这是我们推断的目标。
$P(D | \theta)$ 是 似然函数，表示在给定参数 $\theta$ 的情况下，观测到数据 $D$ 的概率。它代表了数据所提供的信息。
$P(\theta)$ 就是 先验分布，表示我们关于 $\theta$ 的初始信念。
$P(D)$ 是 边际似然 (Marginal Likelihood) 或 证据 (Evidence)，即 $P(D) = \int P(D | \theta) P(\theta) d\theta$ （对于连续参数）。它是一个归一化常数，确保后验分布的积分（或求和）为1。

由于 $P(D)$ 不依赖于 $\theta$ ，我们通常可以将贝叶斯定理写成一个更简洁的比例形式，这更清晰地揭示了先验分布的作用：

\underbrace{P(\theta | D)}_{\text{后验}} \propto \underbrace{P(D | \theta)}_{\text{似然}} \times \underbrace{P(\theta)}_{\text{先验}}

这个表达式的含义是：后验信念是数据提供的证据（似然）与初始信念（先验）相结合的结果。先验分布为我们的模型提供了一个起点，而数据则负责将我们的推断"拉"向更可能反映现实的方向。

先验分布的类型

如何选择先验分布是贝叶斯分析中的一个关键步骤，也是一个长期存在哲学和实践争议的领域。主要有以下几类先验分布：

<h4>1. 信息性先验 (Informative Priors)</h4>

信息性先验是指基于特定、实质性的外部信息来构建的先验分布。这些信息可能来自：

之前的相关研究或实验。
该领域的专家知识。
物理定律或理论约束。

示例：假设我们想要估计一个城市成年男性的平均身高 $\mu$ 。根据常识和以往的人口普查数据，我们知道这个值非常可能在170厘米到180厘米之间，而几乎不可能是150厘米或200厘米。因此，我们可以选择一个以175厘米为中心、方差较小的正态分布 $N(175, \sigma^2)$ 作为先验。

优点：当数据量较小时，一个好的信息性先验可以显著提高估计的准确性和稳定性。它允许我们将有价值的领域知识正式地融入模型中。
缺点：主观性强。一个错误或带有严重偏见的先验可能会主导推断结果，尤其是在数据较少时，导致结论被误导。

<h4>2. 无信息先验 (Uninformative Priors)</h4>

无信息先验，也称为模糊先验 (Vague Priors) 或 客观先验 (Objective Priors)，其目的是尽可能少地对后验分布产生影响，旨在"让数据自己说话"。

均匀分布 (Uniform Distribution)：一个简单直观的选择是在参数的所有可能值上赋予相等的概率。例如，对于一个取值在 $[0, 1]$ 之间的概率参数 $\theta$ ，我们可以使用 $P(\theta) = 1$ 的均匀先验。然而，均匀先验并非在所有情况下都是真正的"无信息"，因为它不具备参数化不变性 (Reparameterization Invariance)。例如，对 $\theta$ 的均匀先验并不意味着对 $\theta^2$ 也是均匀先验。

杰弗里斯先验 (Jeffreys Prior)：这是一种更严谨的无信息先验，它满足参数化不变性。其定义与费雪信息 (Fisher Information) $I(\theta)$ 有关：

P(\theta) \propto \sqrt{I(\theta)}

杰弗里斯先验确保了无论我们如何对参数进行变换，推断结果都保持一致。例如，对于伯努利分布的参数 $p$ ，其杰弗里斯先验是贝塔分布 $\text{Beta}(1/2, 1/2)$ 。

<h4>3. 非正常先验 (Improper Priors)</h4>

非正常先验是指其在整个参数空间上的积分不为1（通常是发散的，即积分为 $\infty$ ）。例如，在估计一个正态分布的均值 $\mu$ 时，如果没有任何先验信息，可以在整个实数轴 $(-\infty, \infty)$ 上使用一个均匀分布， $P(\mu) = c$ （其中 $c$ 是一个常数）。这个分布显然无法归一化。

使用条件：虽然先验本身是"非正常的"，但只要它与似然函数结合后得到的后验分布是正常的 (Proper)，即后验分布可以被归一化（积分为1），那么这种使用就是有效的。如果后验分布也是非正常的，则无法进行有意义的推断。

<h4>4. 共轭先验 (Conjugate Priors)</h4>

在数学上，共轭性是一个非常便利的属性。如果一个先验分布族与一个似然函数族是共轭的，那么当先验来自该分布族时，其对应的后验分布也属于同一个分布族。

示例1：贝塔分布是二项分布（或伯努利分布）似然函数的共轭先验。如果你使用一个 $\text{Beta}(\alpha, \beta)$ 先验来估计一个硬币为正面的概率 $\theta$ ，并且观测到 $n$ 次试验中有 $k$ 次正面，那么后验分布将是另一个贝塔分布 $\text{Beta}(\alpha+k, \beta+n-k)$ 。

示例2：正态分布是方差已知时正态分布似然函数关于均值的共轭先验。

优点：共轭先验极大地简化了计算。后验分布具有已知的解析形式，无需复杂的数值积分或马尔可夫链蒙特卡洛方法 (MCMC)。在MCMC方法普及之前，共轭性是进行贝叶斯分析的主要手段。至今，它仍然因其数学上的简洁和可解释性而被广泛使用。

如何选择先验：实践与哲学

选择先验分布是贝叶斯建模的核心，也是其区别于频率学派统计 (Frequentist Statistics) 的最显著特征之一。

主观性与客观性：对先验分布主观性的批评是频率学派对贝叶斯方法最常见的攻击点。客观贝叶斯主义者试图通过使用无信息先验（如杰弗里斯先验）来最小化主观影响。而主观贝叶斯主义者则认为，任何统计模型都包含主观选择（如模型假设、似然函数形式等），明确地陈述和量化先验信念是一种诚实和透明的建模方式。

敏感性分析 (Sensitivity Analysis)：在实践中，一种标准的做法是进行敏感性分析。这意味着使用几个不同的、合理的先验分布（例如一个信息性先验、一个模糊先验、一个悲观的先验）来重复进行分析，然后检查后验分布对先验选择的敏感程度。
如果不同的先验选择导致了相似的后验结论，那么说明推断结果是稳健的 (robust)，主要由数据驱动。
如果后验结论对先验选择高度敏感，这表明数据提供的信息量不足以压倒先验信念，此时研究者需要更加谨慎地解释结果，并明确指出结论对先验假设的依赖性。

数据量的影响：随着观测数据量的增加，似然函数的作用会越来越强，而先验分布的影响则会逐渐减弱。在一个拥有大量数据的"大数据"时代，只要先验分布没有将真实参数值的概率设为零，那么不同的合理先验通常会汇集到非常相似的后验分布上。这被称为贝叶斯学习的渐进行为，即最终数据会"压倒"先验。

总结

先验分布是贝叶斯统计的基石，它将关于未知参数的初始知识和不确定性以数学语言加以表达。它不是一个需要被"隐藏"或"避免"的主观因素，而是一个需要被明确、审慎选择并加以论证的模型组成部分。通过将先验知识与数据证据相结合，贝叶斯推断提供了一个动态、连贯的学习框架，使得我们能够在一个不确定的世界中，系统地更新我们的知识和信念。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。