ARTICLE

共轭先验

共轭先验 (Conjugate Prior) 共轭先验 (Conjugate Prior) 是贝叶斯统计 (Bayesian statistics) 和机器学习中的一个核心概念。在贝叶斯推断中,如果为某个似然函数 (likelihood function) 选择的先验分布 (prior distribution) 使得其对应的后验分布 (posterior

浏览 242 更新 2025-10-26

共轭先验 (Conjugate Prior)

共轭先验 (Conjugate Prior) 是贝叶斯统计 (Bayesian statistics) 和机器学习中的一个核心概念。在贝叶斯推断中,如果为某个似然函数 (likelihood function) 选择的先验分布 (prior distribution) 使得其对应的后验分布 (posterior distribution) 与先验分布属于同一分布族,那么这个先验分布就被称为该似然函数的 共轭先验

这个特性极大地简化了贝叶斯分析的计算过程。使用共轭先验,后验分布的参数可以通过简单的代数规则直接从先验分布的参数和观测数据中得出,从而避免了复杂的数值积分

贝叶斯推断的框架

要理解共轭先验的价值,我们首先需要回顾一下贝叶斯定理 (Bayes' Theorem) 在参数推断中的应用。假设我们有一个模型参数 θ \theta 和一组观测数据 X X

  • 先验分布 p(θ) p(\theta) :在观测到任何数据之前,我们对参数 θ \theta 的不确定性的信念或知识,用一个概率分布来表示。
  • 似然函数 p(Xθ) p(X|\theta) :给定参数 θ \theta 的一个特定值时,观测到数据 X X 的概率。它描述了数据如何依赖于参数。
  • 后验分布 p(θX) p(\theta|X) :在观测到数据 X X 之后,我们对参数 θ \theta 更新后的信念。这是贝叶斯推断的目标。

贝叶斯定理将这三者联系起来:

p(θX)=p(Xθ)p(θ)p(X)p(\theta|X) = \frac{p(X|\theta) p(\theta)}{p(X)}

其中 p(X)=p(Xθ)p(θ)dθ p(X) = \int p(X|\theta)p(\theta)d\theta 是一个归一化常数,称为边际似然 (marginal likelihood) 或证据 (evidence)。在实际计算中,我们常常关注比例关系:

p(θX)p(Xθ)p(θ)p(\theta|X) \propto p(X|\theta) p(\theta)

后验分布正比于似然函数与先验分布的乘积。

这个框架的挑战在于,分母 p(X) p(X) 的积分通常难以计算。而共轭先验的“魔力”就在于它能够绕过这个难题。

共轭的数学原理与优势

当先验分布 p(θ) p(\theta) 是似然函数 p(Xθ) p(X|\theta) 的共轭先验时,其乘积 p(Xθ)p(θ) p(X|\theta)p(\theta) 的函数形式(即,kernel)与先验分布 p(θ) p(\theta) 的函数形式相同。这意味着后验分布 p(θX) p(\theta|X) 必然属于同一个分布族。

因此,我们不需要进行复杂的积分,只需要识别出后验分布所属的分布族,并根据先验参数和数据统计量,通过简单的更新规则计算出新的后验参数即可。

主要优势

  1. 解析简便性:后验分布具有已知的解析形式(closed-form solution),无需进行数值近似。
  2. 计算高效性:参数更新通常是简单的代数运算,计算速度极快。
  3. 解释直观性:先验分布的参数通常可以被解释为“伪计数”或“先验观测”,而后验参数则是先验信息和数据信息的简单结合,使得学习过程非常直观。

经典共轭分布族示例

理解共轭先验最好的方式是通过具体的例子。

示例一:Beta-二项分布 (Beta-Binomial)

这是解释共轭先验最经典的例子,常用于估计一个事件的成功概率。

  • 场景:我们想估计一枚硬币正面朝上的概率 θ[0,1] \theta \in [0, 1] 。我们进行了 n n 次独立试验(伯努利试验),观测到 k k 次正面(成功)和 nk n-k 次反面(失败)。
  • 似然函数:给定 θ \theta ,观测到 k k 次成功的概率由二项分布 (Binomial distribution) 给出。其似然函数为:
p(Xθ)=(nk)θk(1θ)nkθk(1θ)nk p(X|\theta) = \binom{n}{k} \theta^k (1-\theta)^{n-k} \propto \theta^k (1-\theta)^{n-k}
  • 共轭先验:对于一个定义在 [0,1] [0, 1] 区间的参数 θ \theta ,其自然的共轭先验是贝塔分布 (Beta distribution)。我们选择一个 Beta(α,β) \text{Beta}(\alpha, \beta) 作为先验:
p(θ)=Γ(α+β)Γ(α)Γ(β)θα1(1θ)β1θα1(1θ)β1 p(\theta) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} \propto \theta^{\alpha-1} (1-\theta)^{\beta-1}

这里的超参数 α \alpha β \beta 可以被看作是我们先验信念中的“伪成功次数”和“伪失败次数”。

  • 后验分布的推导

根据贝叶斯定理,后验分布正比于似然与先验的乘积:

\begin{align*} p(\theta|X) & \propto p(X|\theta) p(\theta) \\ & \propto \left( \theta^k (1-\theta)^{n-k} \right) \cdot \left( \theta^{\alpha-1} (1-\theta)^{\beta-1} \right) \\ & = \theta^{k+\alpha-1} (1-\theta)^{n-k+\beta-1}

\end{align*} 这个结果的函数形式与贝塔分布的核完全一致。因此,我们可以直接断定后验分布是一个新的贝塔分布,其参数为 (α=α+k,β=β+nk) (\alpha' = \alpha+k, \beta' = \beta+n-k)

p(θX)=Beta(θα+k,β+nk) p(\theta|X) = \text{Beta}(\theta | \alpha+k, \beta+n-k)

结论:后验信念(新的 α \alpha β \beta )就是简单地将先验信念(旧的 α \alpha β \beta )与数据观测(k k 次成功和 nk n-k 次失败)相加。这个过程清晰地展示了贝叶斯学习是如何更新知识的。

示例二:正态-正态分布 (Normal-Normal)

此例用于在方差已知的情况下估计一个正态分布的均值。

  • 场景:我们有一组来自正态分布 N(μ,σ2) N(\mu, \sigma^2) 的观测值 X={x1,,xn} X = \{x_1, \ldots, x_n\} 。假设方差 σ2 \sigma^2 是已知的,我们想要推断未知的均值 μ \mu
  • 似然函数:样本的似然函数是关于 μ \mu 的函数:
p(Xμ)exp(12σ2i=1n(xiμ)2)exp(n2σ2(μxˉ)2) p(X|\mu) \propto \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 \right) \propto \exp\left( -\frac{n}{2\sigma^2} (\mu - \bar{x})^2 \right)

其中 xˉ=1nxi \bar{x} = \frac{1}{n}\sum x_i 样本均值。可以看出,似然函数本身是 μ \mu 的一个高斯函数形式。

  • 共轭先验:对于均值 μ \mu (其取值范围是整个实数轴),自然的共轭先验是正态分布。我们选择一个 N(μ0,σ02) N(\mu_0, \sigma_0^2) 作为先验:
p(μ)exp(12σ02(μμ0)2) p(\mu) \propto \exp\left( -\frac{1}{2\sigma_0^2} (\mu - \mu_0)^2 \right)
  • 后验分布:后验是两个高斯函数形式的乘积,其结果仍然是高斯函数形式。通过配方法(completing the square)可以证明,后验分布是一个新的正态分布 N(μn,σn2) N(\mu_n, \sigma_n^2) ,其参数更新规则为:
μn=nσ2xˉ+1σ02μ0nσ2+1σ02 \mu_n = \frac{\frac{n}{\sigma^2}\bar{x} + \frac{1}{\sigma_0^2}\mu_0}{\frac{n}{\sigma^2} + \frac{1}{\sigma_0^2}}
σn2=(nσ2+1σ02)1 \sigma_n^2 = \left( \frac{n}{\sigma^2} + \frac{1}{\sigma_0^2} \right)^{-1}

结论:后验均值 μn \mu_n 样本均值 xˉ \bar{x} 和先验均值 μ0 \mu_0 的加权平均。权重由各自的精度(precision,方差的倒数)决定。数据越多(n n 越大),样本均值的权重就越大。后验精度是先验精度与数据精度的和,这表明我们的确定性在观测数据后增加了。

常见的共轭先验配对表

| 似然分布 | 被估计的参数 | 共轭先验分布 | | :--- | :--- | :--- | | 伯努利 (Bernoulli) | 概率 p p | 贝塔 (Beta) | | 二项 (Binomial) | 概率 p p | 贝塔 (Beta) | | 多项 (Multinomial) | 概率向量 p \mathbf{p} | 狄利克雷分布 (Dirichlet) | | 泊松分布 (Poisson) | 率参数 λ \lambda | 伽马分布 (Gamma) | | 指数分布 (Exponential) | 率参数 λ \lambda | 伽马 (Gamma) | | 正态 (Normal) (方差已知) | 均值 μ \mu | 正态 (Normal) | | 正态 (Normal) (均值已知) | 精度 τ=1/σ2 \tau = 1/\sigma^2 | 伽马 (Gamma) | | 正态 (Normal) | 均值 μ \mu 和精度 τ \tau | 正态-伽马 (Normal-Gamma) |

局限性与现代观点

尽管共轭先验非常强大,但它也有其局限性:

  • 灵活性有限:可供选择的共轭先验分布族是有限的。在某些情况下,这些分布可能无法准确地反映分析者真实的先验知识。为了数学上的便利而选择一个不合适的先验,可能会扭曲推断结果。
  • 复杂模型中的困难:在许多现代的复杂模型中,例如深度神经网络或大规模分层贝叶斯模型,很难或不可能找到一个完全共轭的先验结构。

随着计算能力的巨大提升,现代贝叶斯分析越来越依赖于诸如马尔可夫链蒙特卡洛 (MCMC) 和变分推断 (Variational Inference) 等计算方法。这些方法能够从非共轭模型中近似后验分布,极大地扩展了贝叶斯建模的范围。

然而,共轭先验并未过时。它仍然是学习和理解贝叶斯推断的基石。此外,在许多高级算法(如吉布斯采样 Gibbs Sampling)中,"条件共轭"(conditional conjugacy)的概念仍然是实现高效计算的关键。