ARTICLE

先验概率

先验概率 (Prior Probability) 先验概率 (Prior Probability),通常简称为 先验 (Prior),是贝叶斯统计 (Bayesian Statistics) 理论中的一个基本概念。它指的是在观测到任何新数据或证据之前,我们对一个不确定命题、事件或参数所持有的初始信念或概率判断。这种信念可以基于历史数据、以往的研究、科学常识、

浏览 63 更新 2025-10-26

先验概率 (Prior Probability)

先验概率 (Prior Probability),通常简称为 先验 (Prior),是贝叶斯统计 (Bayesian Statistics) 理论中的一个基本概念。它指的是在观测到任何新数据或证据之前,我们对一个不确定命题、事件或参数所持有的初始信念或概率判断。这种信念可以基于历史数据、以往的研究、科学常识、专家意见或纯粹的逻辑假设。

在贝叶斯推断的框架下,先验概率是整個知识更新过程的起点。它与通过数据得到的"证据"相结合,最终形成更新后的信念,即后验概率 (Posterior Probability)。

先验概率在贝叶斯定理中的角色

先验概率的核心作用体现在贝叶斯定理 (Bayes' Theorem) 中。贝叶斯定理是连接先验概率和后验概率的桥梁。其数学表达式为:

P(θD)=P(Dθ)P(θ)P(D)P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}

我们来拆解这个公式中的各个组成部分:

  • P(θ) P(\theta) :这就是先验概率。它表示在考虑数据 D D 之前,我们对参数 θ \theta (或假设 H H )成立的信念强度。例如,θ \theta 可以是抛硬币正面朝上的概率,或者某种新药的有效率。
  • P(Dθ) P(D | \theta) :这是似然函数 (Likelihood Function)。它表示在给定参数 θ \theta 的条件下,观测到数据 D D 的概率。这部分连接了我们的假设与实际观测到的数据。
  • P(θD) P(\theta | D) :这是后验概率。它表示在观测到数据 D D 之后,我们对参数 θ \theta 的更新信念。这是贝叶斯推断的主要目标。
  • P(D) P(D) :这是边缘似然 (Marginal Likelihood),也称为证据 (Evidence)。它是在所有可能的 θ \theta 值上对似然与先验的乘积进行积分或求和得到的,P(D)=P(Dθ)P(θ)dθ P(D) = \int P(D | \theta) P(\theta) d\theta 。它作为归一化常数,确保后验概率的总和(或积分)为1。

从公式中可以看出,后验概率正比于似然与先验的乘积

PosteriorLikelihood×Prior\text{Posterior} \propto \text{Likelihood} \times \text{Prior}

这个关系清晰地表明,我们的最终信念(后验)是数据提供的证据(似然)和我们初始信念(先验)的结合。

先验概率的类型

选择合适的先验概率是贝叶斯分析中的一个关键步骤,也是其灵活性和争议性的来源。先验通常可以分为两大类:

1. 信息先验 (Informative Priors)

信息先验是基于关于参数的实质性外部知识构建的。这些知识可以来自:

  • 先前的研究或实验:例如,在估计某种农作物的平均亩产量时,可以利用过去几年的产量数据来构建一个以历史均值为中心的正态分布 (Normal Distribution) 作为先验。
  • 物理或逻辑约束:例如,一个概率值的参数 θ \theta 必须在 [0,1] [0, 1] 区间内,这是其逻辑边界。
  • 专家意见:在某些领域(如气候模型或医疗诊断),可以收集专家的判断,并将其量化为一种概率分布 (Probability Distribution)。

使用信息先验的优点是能将有价值的已有知识融入模型,尤其是在数据量较少时,一个好的信息先验可以有效地提高估计的稳定性和准确性。

2. 无信息先验 (Uninformative Priors)

当缺乏关于参数的可靠先验知识时,或者为了让分析尽可能"客观",研究者会倾向于使用无信息先验(也称为弱信息先验模糊先验客观先验)。其目标是让数据在推断过程中占据主导地位,最小化先验信念对结果的影响。

常见的无信息先验包括:

  • 均匀分布 (Uniform Distribution):为参数在其可能取值范围内的所有值分配相等的概率密度。例如,对于一个介于0和1之间的概率参数,可以选择 U(0,1) U(0, 1) 作为先验。然而,这种"均匀"性在参数变换后可能就不再保持,这是一个理论上的难题。
  • 杰弗里斯先验 (Jeffreys' Prior):这是一种通过特定规则(基于费雪信息矩阵)构造的先验,其优点是具有"变换不变性"。即对参数进行重新参数化(如从标准差 σ \sigma 变为方差 σ2 \sigma^2 )后,推断结果保持一致。

值得注意的是,完全"无信息"的先验在理论上是不存在的,任何先验选择都隐含了某种假设。因此,许多统计学家更倾向于使用"弱信息先验"这个术语,以承认即使是看似客观的先验也带有微弱的信息。

先验概率的作用与意义

1. 知识的序贯更新 (Sequential Updating) 贝叶斯框架完美地诠释了科学学习的过程。一次分析得出的后验概率可以作为下一次分析的先验概率。

P(θD1)作为新的先验 Pnew(θ)P(\theta | D_1) \rightarrow \text{作为新的先验 } P_{\text{new}}(\theta)

当获得新数据 D2 D_2 时,我们可以用这个新的先验来计算新的后验:

P(θD1,D2)P(D2θ)Pnew(θ)P(\theta | D_1, D_2) \propto P(D_2 | \theta) P_{\text{new}}(\theta)

这个过程可以无限进行下去,每次都能将新信息整合到我们已有的知识体系中。

2. 正则化与防止过拟合 (Regularization and Overfitting) 在机器学习计量经济学中,先验概率起到了正则化的作用。正则化是一种用来惩罚模型复杂度的技术,以防止模型对训练数据产生过拟合

  • 岭回归 (Ridge Regression) 在贝叶斯视角下等价于在线性回归模型中为回归系数假定一个均值为0的高斯先验(正态分布先验)。这个先验会把系数"拉"向0,从而减小其方差。
  • LASSO回归 (LASSO Regression) 等价于为回归系数假定一个均值为0的拉普拉斯先验 (Laplace Prior)。由于拉普拉斯分布在0处有一个尖峰,它倾向于将一些不重要的系数精确地压缩到0,从而实现特征选择。

3. 处理小样本问题 当数据量非常小时,似然函数提供的信息有限,此时后验分布会更受先验分布的影响。一个合理的先验可以帮助稳定估计结果,避免因数据随机性而得出极端结论。随着数据量的增加,似然函数的影响会逐渐盖过先验的影响("数据会说话"),最终不同的合理先验所导出的后验结论会趋于一致。

示例:医学诊断

假设某种疾病在人群中的患病率(即基础概率)是 1\%。这就是我们对任意一个随机个体是否患病的先验概率

  • P(患病)=0.01 P(\text{患病}) = 0.01
  • P(未患病)=0.99 P(\text{未患病}) = 0.99

现在有一种诊断测试,其准确率如下:

  • 如果一个人真的患病,测试结果为阳性的概率是 99\% (灵敏度, Sensitivity): P(阳性患病)=0.99 P(\text{阳性} | \text{患病}) = 0.99
  • 如果一个人没有患病,测试结果为阴性的概率是 95\% (特异性, Specificity),那么假阳性率为 5\%: P(阳性未患病)=0.05 P(\text{阳性} | \text{未患病}) = 0.05

现在,一个人接受了测试并且结果为阳性。那么他确实患病的后验概率P(患病阳性) P(\text{患病} | \text{阳性}) 是多少?

根据贝叶斯定理:

P(患病阳性)=P(阳性患病)P(患病)P(阳性)P(\text{患病} | \text{阳性}) = \frac{P(\text{阳性} | \text{患病}) P(\text{患病})}{P(\text{阳性})}

其中分母 P(阳性) P(\text{阳性}) 可以通过全概率公式计算:

P(阳性)=P(阳性患病)P(患病)+P(阳性未患病)P(未患病)P(\text{阳性}) = P(\text{阳性} | \text{患病})P(\text{患病}) + P(\text{阳性} | \text{未患病})P(\text{未患病})
P(阳性)=(0.99×0.01)+(0.05×0.99)=0.0099+0.0495=0.0594P(\text{阳性}) = (0.99 \times 0.01) + (0.05 \times 0.99) = 0.0099 + 0.0495 = 0.0594

现在我们可以计算后验概率:

P(患病阳性)=0.99×0.010.0594=0.00990.05940.1667P(\text{患病} | \text{阳性}) = \frac{0.99 \times 0.01}{0.0594} = \frac{0.0099}{0.0594} \approx 0.1667

这个结果表明,即使测试结果为阳性,此人真正患病的概率也只有约 16.7\%。这个直觉上可能有些反常的结论,深刻地揭示了先验概率的重要性。因为该疾病本身非常罕见(先验概率很低),所以大部分阳性结果实际上是由大量的健康人群中的假阳性贡献的。

争论与思考

先验概率的选择是贝叶斯学派频率学派 (Frequentist Statistics) 之间长期争论的焦点。频率学派批评先验选择的主观性,认为科学推断应仅基于可观测的数据。而贝叶斯学派则认为,明确地陈述先验假设比隐藏在模型选择中的隐性假设更为诚实和透明。在实践中,进行敏感性分析 (Sensitivity Analysis)——即检验不同先验选择对最终结论的影响——是一种评估分析结果稳健性的重要方法。