ARTICLE

贝叶斯統計

贝叶斯統計 (Bayesian Statistics) 贝叶斯統計是基于贝叶斯定理的统计推断范式，与频率学派统计学构成现代统计学的两大支柱。其核心思想是将未知参数视为随机变量，利用先验分布表达在观测数据之前对参数的既有认知，再通过数据（似然函数）更新这一认知，得到后验分布。所有统计推断——点估计、区间估计、假设检验、预测——均从后验分布导出。贝叶斯定理的统

浏览 0 更新 2025-12-20

贝叶斯統計 (Bayesian Statistics)

贝叶斯統計是基于贝叶斯定理的统计推断范式，与频率学派统计学构成现代统计学的两大支柱。其核心思想是将未知参数视为随机变量，利用先验分布表达在观测数据之前对参数的既有认知，再通过数据（似然函数）更新这一认知，得到后验分布。所有统计推断——点估计、区间估计、假设检验、预测——均从后验分布导出。

贝叶斯定理的统计形式

设 $\theta$ 为未知参数， $y = (y_1, \ldots, y_n)$ 为观测数据。贝叶斯定理表述为：

p(\theta \mid y) = \frac{p(y \mid \theta) \, p(\theta)}{p(y)}

\propto p(y \mid $\theta$ ) \, p( $\theta$ )

其中：

$p(\theta)$ 为先验分布，反映在观测数据前对 $\theta$ 的信念。
$p(y \mid \theta)$ 为似然函数，即给定参数下数据出现的概率（与频率学派一致）。
$p(\theta \mid y)$ 为后验分布，综合了先验与数据信息。
$p(y) = \int p(y \mid \theta) p(\theta) \, d\theta$ 为边际似然（归一化常数），用于模型比较中的贝叶斯因子。

核心直觉：后验 $\propto$ 似然 $\times$ 先验。数据通过似然函数"修正"先验，得到更新后的信念。

先验分布的选择

先验的选择是贝叶斯分析的关键步骤，也是与频率学派争议的焦点。

共轭先验

若先验分布与后验分布属于同一分布族，则称该先验为共轭先验。共轭性极大简化了计算，是贝叶斯统计早期发展的基石。

常见共轭对：

二项似然 + Beta 先验 $\rightarrow$ Beta 后验： $\theta \sim \text{Beta}(\alpha, \beta)$ ，观测 $k$ 次成功（ $n$ 次试验），后验为 $\text{Beta}(\alpha + k, \beta + n - k)$ 。
正态似然（已知方差）+ 正态先验 $\rightarrow$ 正态后验。
Poisson 似然 + Gamma 先验 $\rightarrow$ Gamma 后验。

无信息先验

当缺乏实质性先验知识时，可使用无信息先验（如Jeffreys先验、均匀先验），让数据主导后验。Jeffreys 先验定义为 $p(\theta) \propto \sqrt{|I(\theta)|}$ ，其中 $I(\theta)$ 为Fisher信息。它满足参数变换不变性，是客观贝叶斯分析的基础工具。

层次先验

在复杂模型中，可对先验的超参数再赋予先验，形成层次模型。例如 $y_i \mid \theta_i \sim N(\theta_i, \sigma^2)$ ， $\theta_i \mid \mu, \tau \sim N(\mu, \tau^2)$ ， $\mu \sim \text{Flat}()$ ， $\tau \sim \text{Cauchy}^{+}(0,1)$ 。层次模型自然地实现了收缩估计，在随机效应模型和小区域估计中广泛应用。

后验推断

获得后验分布 $p(\theta \mid y)$ 后，可进行全面的统计推断。

点估计

常用后验均值 $E[\theta \mid y] = \int \theta \, p(\theta \mid y) \, d\theta$ （在平方损失下为贝叶斯估计的最优解）；后验中位数（绝对损失下最优）；后验众数（即最大后验估计，MAP）。

区间估计

可信区间直接给出参数以概率 $1-\alpha$ 落入的区间：

P(a \leq \theta \leq b \mid y) = 1 - \alpha

这与频率学派的置信区间在解释上有本质区别：可信区间可以直接表述为"参数有 95\% 的概率在此区间内"，而置信区间只能表述为"此区间有 95\% 的概率覆盖参数"。通常使用等尾可信区间或最高后验密度区间。

假设检验

贝叶斯假设检验通过后验概率比或贝叶斯因子进行。贝叶斯因子 $B_{10}$ 定义为：

B_{10} = \frac{p(y \mid H_1)}{p(y \mid H_0)} = \frac{\int p(y \mid \theta_1, H_1) p(\theta_1 \mid H_1) \, d\theta_1} {\int p(y \mid \theta_0, H_0) p(\theta_0 \mid H_0) \, d\theta_0}

$B_{10} > 1$ 表示数据支持 $H_1$ 。与p值不同，贝叶斯因子可直接量化证据强度，且不受采样意图的影响。

预测分布

后验预测分布用于预测新观测 $\tilde{y}$ ：

p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta

这自然实现了模型平均——不依赖单一参数估计值，而是对参数的不确定性进行积分。

计算方法：MCMC

对于非共轭模型，后验分布通常无解析形式。马尔可夫链蒙特卡洛方法通过从后验分布中采样来逼近积分。

核心算法：

Metropolis-Hastings算法：构造以目标后验为平稳分布的马尔可夫链。提议分布 $q(\theta^* \mid \theta^{(t)})$ 生成候选点，以概率 $\alpha = \min\left(1, \frac{p(\theta^* \mid y) q(\theta^{(t)} \mid \theta^*)}{p(\theta^{(t)} \mid y) q(\theta^* \mid \theta^{(t)})}\right)$ 接受或拒绝。
Gibbs采样：当条件后验 $p(\theta_j \mid \theta_{-j}, y)$ 为标准分布时，逐个分量采样。Gibbs 是 Metropolis-Hastings 的特例（接受概率恒为 1）。
Hamiltonian Monte Carlo：利用梯度信息模拟哈密顿动力学，在高维参数空间中高效探索。Stan 和 PyMC 等现代概率编程库均以 HMC 及其变体（NUTS）为核心采样引擎。

MCMC 诊断：收敛诊断（Gelman-Rubin $\hat{R}$ 统计量， $\hat{R} < 1.01$ 通常视为收敛）、有效样本量、迹图与自相关图是评估采样质量的必要工具。

与频率学派的核心区别

参数的本质：贝叶斯视参数为随机变量，频率学派视参数为未知常数。
概率的解释：贝叶斯概率是信念程度（认知不确定性），频率概率是长期频率（随机性）。
推断基础：贝叶斯基于后验分布，频率学派基于抽样分布。
区间解释：可信区间给出概率陈述，置信区间给出覆盖频率保证。
先验信息：贝叶斯可正式纳入先验知识，频率学派依赖数据本身。
大样本性质：在温和条件下，后验分布渐近正态且集中在真值附近（Bernstein–von Mises 定理），两者在大样本下趋于一致。

应用领域

贝叶斯方法在以下领域有突出优势：

计量经济学：DSGE模型的估计、面板数据的层次建模、内生性问题的贝叶斯工具变量。
机器学习：高斯过程、贝叶斯神经网络、变分推断（可扩展的近似推断替代 MCMC）。
决策分析：贝叶斯决策论将统计推断与决策行动统一于期望效用框架。
医学统计：临床试验的序贯设计、缺失数据的多重填补、荟萃分析中的随机效应模型。

贝叶斯统计并非频率学派的替代品，而是提供了一种统一的、概率化的推理语言。在数据稀缺、模型复杂或先验信息丰富的情境下，贝叶斯方法的优势尤为显著。对于任何希望系统处理不确定性的研究者，掌握贝叶斯思维——将学习视为信念更新、将推断统一于概率计算——是对统计素养的深层提升。正如Laplace所言，概率论本质上不过是以计算形式表达的良好判断力，而贝叶斯范式正是这一哲学在统计推断中最完整的实现。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。