ARTICLE

贝叶斯統計

贝叶斯統計 (Bayesian Statistics) 贝叶斯統計是基于贝叶斯定理的统计推断范式,与频率学派统计学构成现代统计学的两大支柱。其核心思想是将未知参数视为随机变量,利用先验分布表达在观测数据之前对参数的既有认知,再通过数据(似然函数)更新这一认知,得到后验分布。所有统计推断——点估计、区间估计、假设检验、预测——均从后验分布导出。 贝叶斯定理的统

浏览 0 更新 2025-12-20

贝叶斯統計 (Bayesian Statistics)

贝叶斯統計是基于贝叶斯定理的统计推断范式,与频率学派统计学构成现代统计学的两大支柱。其核心思想是将未知参数视为随机变量,利用先验分布表达在观测数据之前对参数的既有认知,再通过数据(似然函数)更新这一认知,得到后验分布。所有统计推断——点估计、区间估计、假设检验、预测——均从后验分布导出。

贝叶斯定理的统计形式

θ\theta 为未知参数,y=(y1,,yn)y = (y_1, \ldots, y_n) 为观测数据。贝叶斯定理表述为:

p(θy)=p(yθ)p(θ)p(y)p(\theta \mid y) = \frac{p(y \mid \theta) \, p(\theta)}{p(y)}

\propto p(y \mid θ\theta) \, p(θ\theta)

其中:

  • p(θ)p(\theta)先验分布,反映在观测数据前对 θ\theta 的信念。
  • p(yθ)p(y \mid \theta)似然函数,即给定参数下数据出现的概率(与频率学派一致)。
  • p(θy)p(\theta \mid y)后验分布,综合了先验与数据信息。
  • p(y)=p(yθ)p(θ)dθp(y) = \int p(y \mid \theta) p(\theta) \, d\theta边际似然(归一化常数),用于模型比较中的贝叶斯因子。

核心直觉:后验 \propto 似然 ×\times 先验。数据通过似然函数"修正"先验,得到更新后的信念。

先验分布的选择

先验的选择是贝叶斯分析的关键步骤,也是与频率学派争议的焦点。

共轭先验

若先验分布与后验分布属于同一分布族,则称该先验为共轭先验。共轭性极大简化了计算,是贝叶斯统计早期发展的基石。

常见共轭对:

  • 二项似然 + Beta 先验 \rightarrow Beta 后验:θBeta(α,β)\theta \sim \text{Beta}(\alpha, \beta),观测 kk 次成功(nn 次试验),后验为 Beta(α+k,β+nk)\text{Beta}(\alpha + k, \beta + n - k)
  • 正态似然(已知方差)+ 正态先验 \rightarrow 正态后验。
  • Poisson 似然 + Gamma 先验 \rightarrow Gamma 后验。

无信息先验

当缺乏实质性先验知识时,可使用无信息先验(如Jeffreys先验、均匀先验),让数据主导后验。Jeffreys 先验定义为 p(θ)I(θ)p(\theta) \propto \sqrt{|I(\theta)|},其中 I(θ)I(\theta)Fisher信息。它满足参数变换不变性,是客观贝叶斯分析的基础工具。

层次先验

在复杂模型中,可对先验的超参数再赋予先验,形成层次模型。例如 yiθiN(θi,σ2)y_i \mid \theta_i \sim N(\theta_i, \sigma^2)θiμ,τN(μ,τ2)\theta_i \mid \mu, \tau \sim N(\mu, \tau^2)μFlat()\mu \sim \text{Flat}()τCauchy+(0,1)\tau \sim \text{Cauchy}^{+}(0,1)。层次模型自然地实现了收缩估计,在随机效应模型和小区域估计中广泛应用。

后验推断

获得后验分布 p(θy)p(\theta \mid y) 后,可进行全面的统计推断。

点估计

常用后验均值 E[θy]=θp(θy)dθE[\theta \mid y] = \int \theta \, p(\theta \mid y) \, d\theta(在平方损失下为贝叶斯估计的最优解);后验中位数(绝对损失下最优);后验众数(即最大后验估计,MAP)。

区间估计

可信区间直接给出参数以概率 1α1-\alpha 落入的区间:

P(aθby)=1αP(a \leq \theta \leq b \mid y) = 1 - \alpha

这与频率学派的置信区间在解释上有本质区别:可信区间可以直接表述为"参数有 95\% 的概率在此区间内",而置信区间只能表述为"此区间有 95\% 的概率覆盖参数"。通常使用等尾可信区间或最高后验密度区间。

假设检验

贝叶斯假设检验通过后验概率比或贝叶斯因子进行。贝叶斯因子 B10B_{10} 定义为:

B10=p(yH1)p(yH0)=p(yθ1,H1)p(θ1H1)dθ1p(yθ0,H0)p(θ0H0)dθ0B_{10} = \frac{p(y \mid H_1)}{p(y \mid H_0)} = \frac{\int p(y \mid \theta_1, H_1) p(\theta_1 \mid H_1) \, d\theta_1} {\int p(y \mid \theta_0, H_0) p(\theta_0 \mid H_0) \, d\theta_0}

B10>1B_{10} > 1 表示数据支持 H1H_1。与p值不同,贝叶斯因子可直接量化证据强度,且不受采样意图的影响。

预测分布

后验预测分布用于预测新观测 y~\tilde{y}

p(y~y)=p(y~θ)p(θy)dθp(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta

这自然实现了模型平均——不依赖单一参数估计值,而是对参数的不确定性进行积分。

计算方法:MCMC

对于非共轭模型,后验分布通常无解析形式。马尔可夫链蒙特卡洛方法通过从后验分布中采样来逼近积分。

核心算法:

  • Metropolis-Hastings算法:构造以目标后验为平稳分布的马尔可夫链。提议分布 q(θθ(t))q(\theta^* \mid \theta^{(t)}) 生成候选点,以概率 α=min(1,p(θy)q(θ(t)θ)p(θ(t)y)q(θθ(t)))\alpha = \min\left(1, \frac{p(\theta^* \mid y) q(\theta^{(t)} \mid \theta^*)}{p(\theta^{(t)} \mid y) q(\theta^* \mid \theta^{(t)})}\right) 接受或拒绝。
  • Gibbs采样:当条件后验 p(θjθj,y)p(\theta_j \mid \theta_{-j}, y) 为标准分布时,逐个分量采样。Gibbs 是 Metropolis-Hastings 的特例(接受概率恒为 1)。
  • Hamiltonian Monte Carlo:利用梯度信息模拟哈密顿动力学,在高维参数空间中高效探索。Stan 和 PyMC 等现代概率编程库均以 HMC 及其变体(NUTS)为核心采样引擎。

MCMC 诊断:收敛诊断Gelman-Rubin R^\hat{R} 统计量,R^<1.01\hat{R} < 1.01 通常视为收敛)、有效样本量、迹图与自相关图是评估采样质量的必要工具。

与频率学派的核心区别

  1. 参数的本质:贝叶斯视参数为随机变量,频率学派视参数为未知常数。
  2. 概率的解释:贝叶斯概率是信念程度(认知不确定性),频率概率是长期频率(随机性)。
  3. 推断基础:贝叶斯基于后验分布,频率学派基于抽样分布
  4. 区间解释:可信区间给出概率陈述,置信区间给出覆盖频率保证。
  5. 先验信息:贝叶斯可正式纳入先验知识,频率学派依赖数据本身。
  6. 大样本性质:在温和条件下,后验分布渐近正态且集中在真值附近(Bernstein–von Mises 定理),两者在大样本下趋于一致。

应用领域

贝叶斯方法在以下领域有突出优势:

贝叶斯统计并非频率学派的替代品,而是提供了一种统一的、概率化的推理语言。在数据稀缺、模型复杂或先验信息丰富的情境下,贝叶斯方法的优势尤为显著。对于任何希望系统处理不确定性的研究者,掌握贝叶斯思维——将学习视为信念更新、将推断统一于概率计算——是对统计素养的深层提升。正如Laplace所言,概率论本质上不过是以计算形式表达的良好判断力,而贝叶斯范式正是这一哲学在统计推断中最完整的实现。