ARTICLE

贝叶斯统计 (Bayesian statistics)

贝叶斯统计 (Bayesian statistics) 贝叶斯统计（Bayesian statistics）是以贝叶斯定理为核心的一整套统计推断范式，其基本思想是将未知参数视为随机变量，通过先验分布表达分析者在观测数据之前对参数的既有认知，再利用观测数据通过似然函数更新这一认知，最终得到后验分布。后验分布综合了先验信息和数据信息，是所有贝叶斯推断——点估计、

浏览 0 更新 2025-10-26

贝叶斯统计 (Bayesian statistics)

贝叶斯统计（Bayesian statistics）是以贝叶斯定理为核心的一整套统计推断范式，其基本思想是将未知参数视为随机变量，通过先验分布表达分析者在观测数据之前对参数的既有认知，再利用观测数据通过似然函数更新这一认知，最终得到后验分布。后验分布综合了先验信息和数据信息，是所有贝叶斯推断——点估计、区间估计、假设检验和预测——的基础。与频率学派统计将参数视为固定未知常数、仅通过样本的重复抽样性质进行推断不同，贝叶斯统计明确将主观或客观的先验知识纳入分析框架，提供了一套统一的概率推理语言。

贝叶斯定理的核心结构

贝叶斯统计的数学基础是贝叶斯定理。设 $\theta$ 为未知参数， $y = (y_1, \ldots, y_n)$ 为已观测数据。贝叶斯定理的连续形式为：

p(\theta \mid y) = \frac{p(y \mid \theta) \, p(\theta)}{p(y)} = \frac{p(y \mid \theta) \, p(\theta)}{\int p(y \mid \theta) \, p(\theta) \, d\theta}

其中， $p(\theta)$ 为先验分布——反映在观测数据前对参数 $\theta$ 的认知； $p(y \mid \theta)$ 为似然函数——给定参数 $\theta$ 下观测到数据 $y$ 的概率模型，与频率学派中的似然函数完全一致； $p(\theta \mid y)$ 为后验分布——综合先验和数据后对参数 $\theta$ 的更新认知； $p(y) = \int p(y \mid \theta) p(\theta) d\theta$ 为边缘似然或归一化常数，保证后验分布积分为1。

由于分母 $p(y)$ 不依赖于 $\theta$ ，贝叶斯推断中常使用比例形式： $p(\theta \mid y) \propto p(y \mid \theta) \, p(\theta)$ 。该简洁表达式揭示了贝叶斯学习的本质：后验正比于先验乘以似然。

先验分布的类型与选择

先验分布的选择是贝叶斯统计的核心议题。常见的先验类型包括：

无信息先验：当分析者对参数缺乏实质性的先验知识时，采用对数据影响最小的先验，如拉普拉斯提出的均匀先验或Jeffreys先验。Jeffreys先验具有参数变换不变性，其形式为 $p(\theta) \propto \sqrt{I(\theta)}$ ，其中 $I(\theta)$ 为Fisher信息量。
共轭先验：若先验分布与后验分布属于同一分布族，则称该先验为似然函数的共轭先验。例如，二项似然的共轭先验为Beta分布，正态似然（方差已知）的共轭先验为正态分布，正态似然（均值已知）下方差参数的共轭先验为逆伽玛分布。共轭先验使后验计算解析可解，在教学中被广泛使用。
层级先验：将先验分布本身参数化，并对超参数再赋予先验，形成层级贝叶斯模型。层级模型在处理组间异质性、随机效应等结构化数据时具有显著优势。
信息先验：当存在来自历史研究、专家意见或理论约束的实质性先验知识时，通过调节先验参数将信息纳入分析。

先验选择的敏感性分析是贝叶斯实践中的重要环节——通过比较不同先验下的后验结果，评估结论对先验假设的稳健程度。

贝叶斯推断

基于后验分布 $p(\theta \mid y)$ ，贝叶斯推断包含以下主要形式：

点估计通常取后验均值 $E[\theta \mid y]$ （在平方损失下为最优）或后验众数（最大后验估计，MAP估计）。当先验为无信息先验时，MAP估计退化为最大似然估计（MLE）。

区间估计使用可信区间：给定概率水平 $1 - \alpha$ ，可信区间 $[L, U]$ 满足 $P(L \le \theta \le U \mid y) = 1 - \alpha$ 。与频率学派的置信区间不同，可信区间提供了直接的、符合直觉的概率陈述——参数有 $1 - \alpha$ 的概率落在该区间内。

假设检验通过后验概率比或贝叶斯因子进行比较。贝叶斯因子定义为两个模型的边缘似然之比： $BF_{12} = p(y \mid M_1) / p(y \mid M_2)$ 。 $BF_{12} > 1$ 表示数据支持模型1而非模型2。

预测分布用于对未来观测 $y^*$ 进行推断： $p(y^* \mid y) = \int p(y^* \mid \theta) \, p(\theta \mid y) \, d\theta$ ，自动综合了参数不确定性和抽样变异性。

计算方法：MCMC

除少数使用共轭先验的情形外，后验分布通常没有解析表达式，需借助数值方法。马尔可夫链蒙特卡洛（MCMC）是贝叶斯计算的主流方法，其核心思想为构造一个以目标后验分布为平稳分布的马尔可夫链，通过大量采样近似后验分布。常用算法包括：Metropolis-Hastings算法通过接受-拒绝机制从任意提议分布中实现目标后验采样；Gibbs采样作为MH的特例，通过对各参数的满条件分布依次采样实现对多维后验的高效探索；Hamiltonian Monte Carlo（HMC）利用梯度信息抑制随机游走行为，在STAN等现代贝叶斯软件中得到广泛应用。

在经济学中的应用

贝叶斯方法在经济学和计量经济学中有着广泛而深入的应用。在宏观经济学中，贝叶斯VAR模型通过先验压缩大规模VAR的参数空间，解决了经典方法中自由度过大的问题。在微观计量经济学中，层级贝叶斯模型被广泛用于消费者异质性分析——如离散选择模型中随机系数的估计。在资产定价中，贝叶斯方法为投资组合理论中参数不确定性的处理提供了自然框架，允许投资者综合历史数据和主观判断构建最优组合。在结构估计中，贝叶斯方法将理论模型的结构参数视为随机变量，通过先验引入经济理论的定性约束，在DSGE模型的参数校准中发挥了关键作用。

贝叶斯统计与频率学派统计并非互斥的范式，而是适用于不同分析场景的互补工具。当存在可靠的先验信息时贝叶斯推断效率更高，当需要保证频率性质时频率方法更适用。理解两种范式的异同及其各自的适用条件，是现代计量经济学训练的重要组成部分。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。