ARTICLE

贝叶斯规则

贝叶斯规则 (Bayes' Rule) 贝叶斯规则 (Bayes' Rule),又称 贝叶斯定理 (Bayes' Theorem),是概率论中描述两个条件概率之间关系的核心公式。给定事件 A 和 B,且 P(B) > 0,贝叶斯规则表述为: 其中 P(A B) 称为后验概率 (Posterior Probability)——在观察到 B 发生后对 A 的更新

浏览 0 更新 2026-01-15

贝叶斯规则 (Bayes' Rule)

贝叶斯规则 (Bayes' Rule),又称 贝叶斯定理 (Bayes' Theorem),是概率论中描述两个条件概率之间关系的核心公式。给定事件 AABB,且 P(B)>0P(B) > 0,贝叶斯规则表述为:

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B)}

其中 P(AB)P(A \mid B) 称为后验概率 (Posterior Probability)——在观察到 BB 发生后对 AA 的更新信念;P(A)P(A)先验概率 (Prior Probability)——观察到任何证据之前对 AA 的初始信念;P(BA)P(B \mid A)似然 (Likelihood)——在 AA 为真的条件下观察到证据 BB 的概率;P(B)P(B)边缘似然全概率 (Marginal Likelihood / Evidence),可通过全概率公式展开:P(B)=P(BA)P(A)+P(B¬A)P(¬A)P(B) = P(B \mid A)P(A) + P(B \mid \neg A)P(\neg A)

贝叶斯规则是贝叶斯统计的数学基石,也是理性信念更新的规范性框架。它提供了一种通过新证据系统性地修正先验信念的概率机制,将归纳推理形式化为严格的概率演算。

历史渊源

贝叶斯规则得名于英国长老会牧师、数学家托马斯·贝叶斯 (Thomas Bayes, 1701--1761)。贝叶斯在生前未发表该定理,其手稿《论机会学说中一个问题的求解》由好友理查德·普莱斯 (Richard Price) 在其去世后整理,于 1763 年发表于皇家学会《哲学汇刊》。普莱斯在序言中指出,贝叶斯的目标是回答一个深刻的哲学问题:给定某一未知事件在若干独立试验中成功的次数,如何推断该事件在一次试验中成功的概率?

法国数学家皮埃尔-西蒙·拉普拉斯 (Pierre-Simon Laplace, 1749--1827) 独立发现了更为一般的贝叶斯规则表述,并将其系统地应用于天文学、人口统计学和法学等领域。拉普拉斯在 1774 年的论文中推导了后验分布的通用形式,并在 1812 年的《概率的分析理论》中完善了整套理论。值得一提的是,拉普拉斯用贝叶斯规则估计了土星质量的概率分布,其预测与后续天文观测高度吻合。

在 20 世纪,贝叶斯方法在统计学主流中长期处于边缘地位,被频率学派 (Frequentist Statistics) 所主导(该学派代表人物包括费希尔内曼埃贡·皮尔逊)。直到计算技术的飞速发展——特别是马尔可夫链蒙特卡洛 (MCMC) 方法的出现——使得复杂后验分布的数值计算变得可行,贝叶斯方法才在 20 世纪末迎来复兴,并深刻重塑了现代统计学、机器学习计量经济学的面貌。

公式推导

贝叶斯规则可从条件概率的定义出发直接推导。条件概率的定义为:

P(AB)=P(AB)P(B),P(BA)=P(AB)P(A)P(A \mid B) = \frac{P(A \cap B)}{P(B)}, \quad P(B \mid A) = \frac{P(A \cap B)}{P(A)}

由此可得 P(AB)=P(BA)P(A)P(A \cap B) = P(B \mid A) P(A)。代入条件概率公式:

P(AB)=P(AB)P(B)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B \mid A) P(A)}{P(B)}

分母 P(B)P(B) 通过全概率公式在完备事件组 {A1,A2,,An}\{A_1, A_2, \ldots, A_n\} 上展开:

P(B)=i=1nP(BAi)P(Ai)P(B) = \sum_{i=1}^{n} P(B \mid A_i) P(A_i)

在连续随机变量情形下,贝叶斯规则以概率密度函数的形式表达。若参数 θ\theta 的先验密度为 π(θ)\pi(\theta),似然函数为 f(xθ)f(x \mid \theta),则后验密度为:

π(θx)=f(xθ)π(θ)Θf(xθ)π(θ)dθ\pi(\theta \mid x) = \frac{f(x \mid \theta) \, \pi(\theta)}{\int_{\Theta} f(x \mid \theta') \, \pi(\theta') \, d\theta'}

其中分母 m(x)=Θf(xθ)π(θ)dθm(x) = \int_{\Theta} f(x \mid \theta) \pi(\theta) d\theta 为边缘似然,仅依赖于观测数据 xx,与参数 θ\theta 无关。因此上述公式常简化为比例形式:

π(θx)f(xθ)π(θ)\pi(\theta \mid x) \propto f(x \mid \theta) \, \pi(\theta)

这一比例形式凸显了贝叶斯规则的认识论本质:后验正比于似然乘以先验

经典示例:医学检验

假设某种罕见疾病在人群中的发病率为 P(D)=0.001P(D) = 0.001(千分之一)。某种检测方法的灵敏度为 P(+D)=0.99P(+ \mid D) = 0.99(患者检出阳性的概率为 99\%),特异度为 P(¬D)=0.99P(- \mid \neg D) = 0.99(健康人检出阴性的概率为 99\%,即假阳性率 P(+¬D)=0.01P(+ \mid \neg D) = 0.01)。

问题:某人检测结果为阳性,他实际患病的概率是多少?

直觉常使人误以为该概率约为 99\%,但贝叶斯规则给出了不同的答案:

\begin{align} \[ P(D \mid +) &= \frac{P(+ \mid D) P(D)}{P(+ \mid D)P(D) + P(+ \mid \neg D)P(\neg D)} \\ \] \&= \(\frac{0.99 \times 0.001}{0.99 \times 0.001 + 0.01 \times 0.999}\) \\ \&\approx 0.0902 = 9.02\% \end{align}

即使检测结果为阳性,实际患病的概率仅为约 9\%。原因是疾病极为罕见,假阳性的人数远远超过真阳性的人数:在一百万人口中,约 999 人患病且检为阳性,但约 9,990 名健康人也被错误地检为阳性。贝叶斯规则精确量化了这一基础率谬误 (Base Rate Fallacy),揭示了忽略先验信息可能导致严重判断偏差。此逻辑在临床诊断、司法鉴定、垃圾邮件过滤和信号检测等领域具有普遍意义。

与贝叶斯统计的关系

贝叶斯规则是贝叶斯统计的算法核心。在贝叶斯推断框架中,参数 θ\theta 被视为随机变量,拥有先验分布 π(θ)\pi(\theta);通过观测数据 xx,利用贝叶斯规则更新得到后验分布 π(θx)\pi(\theta \mid x)。所有关于参数的统计推断——点估计(后验均值、后验中位数)、区间估计(可信区间)、假设检验(贝叶斯因子)——均基于后验分布导出。

贝叶斯规则也是贝叶斯更新 (Bayesian Updating) 的基础。当数据分批到来时,前一阶段的后验自然成为下一阶段的先验,形成递推更新链:

π(θx1,x2)f(x2θ)π(θx1)f(x2θ)f(x1θ)π(θ)\pi(\theta \mid x_1, x_2) \propto f(x_2 \mid \theta) \, \pi(\theta \mid x_1) \propto f(x_2 \mid \theta) \, f(x_1 \mid \theta) \, \pi(\theta)

这一递推性质与人类学习的渐进性高度契合,也使贝叶斯方法在在线学习 (Online Learning) 和序贯决策问题中具有天然优势。贝叶斯规则在贝叶斯博弈 (Bayesian Game) 中同样是核心工具:玩家利用观察到的信号更新对其他玩家类型的信念,进而选择最优策略以达成贝叶斯纳什均衡

经济学与计量经济学中的应用

贝叶斯规则在经济学中有多层次的应用。在信息经济学中,经济主体在接收到新信号后依据贝叶斯规则更新其对未知变量的信念,这是理性预期模型的基础。在信号传递模型中,接收方利用贝叶斯规则从发送方的行为中推断其私有信息;例如斯宾塞的就业市场信号模型 (Spence, 1973) 中,雇主通过观察求职者的教育水平,运用贝叶斯规则更新对其生产能力的信念。合同理论中的代理问题和柠檬市场模型同样隐含了贝叶斯信念更新的逻辑结构。

贝叶斯计量经济学中,贝叶斯规则构成了参数估计与模型选择的基础框架。对于向量自回归 (VAR) 模型,贝叶斯方法通过设定先验分布(如明尼苏达先验)有效解决过拟合问题;在动态随机一般均衡 (DSGE) 模型估计中,贝叶斯方法可以整合微观经济先验信息与宏观时间序列数据,产生更为稳健的参数推断。此外,贝叶斯模型平均 (BMA) 利用贝叶斯规则在不同模型之间分配后验概率权重,从而系统地处理模型不确定性——这在经济增长回归和政策评估中尤为重要。

先验选择与敏感性

贝叶斯规则的应用需要指定先验分布,这是其力量和争议的共同来源。常见的先验策略包括:

  • 无信息先验 (Non-informative Prior):如杰弗里斯先验 (Jeffreys Prior),以参数空间的几何结构(费希尔信息行列式的平方根)为出发点,试图最小化先验对后验的主观影响。
  • 共轭先验 (Conjugate Prior):选择与似然函数具有相同函数形式的先验分布族,使后验分布与先验属于同一分布族,从而大幅简化计算。例如,二项似然的共轭先验为贝塔分布,正态似然(方差已知)的共轭先验为正态分布,正态似然(均值已知)的共轭先验为逆伽马分布。
  • 层级先验 (Hierarchical Prior):将先验分布的参数(超参数)本身赋予更高层的先验,构建多层贝叶斯模型。层级贝叶斯模型在面板数据分析和多主体研究中应用广泛。

当先验信息足够强且样本量有限时,后验可能对先验选择较为敏感。因此,贝叶斯分析的规范实践要求进行敏感性分析 (Sensitivity Analysis):考察不同先验设定下后验推断的稳健性。在大样本条件下,根据伯恩斯坦-冯·米塞斯定理 (Bernstein--von Mises Theorem),后验分布收敛于以极大似然估计为中心的正态分布,先验的影响渐近消失,贝叶斯推断与频率学派推断趋于一致。

常见误区

一个常见的误解是将贝叶斯规则等同于主观主义 (Subjectivism)。诚然,先验分布可以编码研究者的主观信念,但贝叶斯规则的数学结构本身是客观的概率恒等式。现代贝叶斯方法重视客观先验 (Objective Bayes) 的研究,旨在从模型结构本身推导出尽可能不受主观因素影响的参考先验 (Reference Prior)。此外,贝叶斯规则的正确应用要求事件空间划分完备,在实践中需警惕遗漏重要假设导致的全概率计算偏差。最后,贝叶斯规则作为概率论中的恒等式具有普遍适用性,无需任何哲学承诺即可在频率学派框架内使用——例如EM算法的 E 步本质上就是计算隐变量的后验分布。