ARTICLE

贝叶斯统计 (Bayesian statistics)

贝叶斯统计 (Bayesian statistics) 贝叶斯统计(Bayesian statistics)是以贝叶斯定理为核心的一整套统计推断范式,其基本思想是将未知参数视为随机变量,通过先验分布表达分析者在观测数据之前对参数的既有认知,再利用观测数据通过似然函数更新这一认知,最终得到后验分布。后验分布综合了先验信息和数据信息,是所有贝叶斯推断——点估计、

浏览 0 更新 2025-10-26

贝叶斯统计 (Bayesian statistics)

贝叶斯统计(Bayesian statistics)是以贝叶斯定理为核心的一整套统计推断范式,其基本思想是将未知参数视为随机变量,通过先验分布表达分析者在观测数据之前对参数的既有认知,再利用观测数据通过似然函数更新这一认知,最终得到后验分布。后验分布综合了先验信息和数据信息,是所有贝叶斯推断——点估计、区间估计、假设检验和预测——的基础。与频率学派统计将参数视为固定未知常数、仅通过样本的重复抽样性质进行推断不同,贝叶斯统计明确将主观或客观的先验知识纳入分析框架,提供了一套统一的概率推理语言。

贝叶斯定理的核心结构

贝叶斯统计的数学基础是贝叶斯定理。设 θ\theta 为未知参数,y=(y1,,yn)y = (y_1, \ldots, y_n) 为已观测数据。贝叶斯定理的连续形式为:

p(θy)=p(yθ)p(θ)p(y)=p(yθ)p(θ)p(yθ)p(θ)dθp(\theta \mid y) = \frac{p(y \mid \theta) \, p(\theta)}{p(y)} = \frac{p(y \mid \theta) \, p(\theta)}{\int p(y \mid \theta) \, p(\theta) \, d\theta}

其中,p(θ)p(\theta) 为先验分布——反映在观测数据前对参数 θ\theta 的认知;p(yθ)p(y \mid \theta) 为似然函数——给定参数 θ\theta 下观测到数据 yy 的概率模型,与频率学派中的似然函数完全一致;p(θy)p(\theta \mid y) 为后验分布——综合先验和数据后对参数 θ\theta 的更新认知;p(y)=p(yθ)p(θ)dθp(y) = \int p(y \mid \theta) p(\theta) d\theta 为边缘似然或归一化常数,保证后验分布积分为1。

由于分母 p(y)p(y) 不依赖于 θ\theta,贝叶斯推断中常使用比例形式:p(θy)p(yθ)p(θ)p(\theta \mid y) \propto p(y \mid \theta) \, p(\theta)。该简洁表达式揭示了贝叶斯学习的本质:后验正比于先验乘以似然。

先验分布的类型与选择

先验分布的选择是贝叶斯统计的核心议题。常见的先验类型包括:

  1. 无信息先验:当分析者对参数缺乏实质性的先验知识时,采用对数据影响最小的先验,如拉普拉斯提出的均匀先验或Jeffreys先验。Jeffreys先验具有参数变换不变性,其形式为 p(θ)I(θ)p(\theta) \propto \sqrt{I(\theta)},其中 I(θ)I(\theta)Fisher信息量
  2. 共轭先验:若先验分布与后验分布属于同一分布族,则称该先验为似然函数的共轭先验。例如,二项似然的共轭先验为Beta分布,正态似然(方差已知)的共轭先验为正态分布,正态似然(均值已知)下方差参数的共轭先验为逆伽玛分布。共轭先验使后验计算解析可解,在教学中被广泛使用。
  3. 层级先验:将先验分布本身参数化,并对超参数再赋予先验,形成层级贝叶斯模型。层级模型在处理组间异质性、随机效应等结构化数据时具有显著优势。
  4. 信息先验:当存在来自历史研究、专家意见或理论约束的实质性先验知识时,通过调节先验参数将信息纳入分析。

先验选择的敏感性分析是贝叶斯实践中的重要环节——通过比较不同先验下的后验结果,评估结论对先验假设的稳健程度。

贝叶斯推断

基于后验分布 p(θy)p(\theta \mid y),贝叶斯推断包含以下主要形式:

点估计通常取后验均值 E[θy]E[\theta \mid y](在平方损失下为最优)或后验众数(最大后验估计,MAP估计)。当先验为无信息先验时,MAP估计退化为最大似然估计(MLE)。

区间估计使用可信区间:给定概率水平 1α1 - \alpha,可信区间 [L,U][L, U] 满足 P(LθUy)=1αP(L \le \theta \le U \mid y) = 1 - \alpha。与频率学派的置信区间不同,可信区间提供了直接的、符合直觉的概率陈述——参数有 1α1 - \alpha 的概率落在该区间内。

假设检验通过后验概率比或贝叶斯因子进行比较。贝叶斯因子定义为两个模型的边缘似然之比:BF12=p(yM1)/p(yM2)BF_{12} = p(y \mid M_1) / p(y \mid M_2)BF12>1BF_{12} > 1 表示数据支持模型1而非模型2。

预测分布用于对未来观测 yy^* 进行推断:p(yy)=p(yθ)p(θy)dθp(y^* \mid y) = \int p(y^* \mid \theta) \, p(\theta \mid y) \, d\theta,自动综合了参数不确定性和抽样变异性。

计算方法:MCMC

除少数使用共轭先验的情形外,后验分布通常没有解析表达式,需借助数值方法。马尔可夫链蒙特卡洛(MCMC)是贝叶斯计算的主流方法,其核心思想为构造一个以目标后验分布为平稳分布马尔可夫链,通过大量采样近似后验分布。常用算法包括:Metropolis-Hastings算法通过接受-拒绝机制从任意提议分布中实现目标后验采样;Gibbs采样作为MH的特例,通过对各参数的满条件分布依次采样实现对多维后验的高效探索;Hamiltonian Monte Carlo(HMC)利用梯度信息抑制随机游走行为,在STAN等现代贝叶斯软件中得到广泛应用。

在经济学中的应用

贝叶斯方法在经济学和计量经济学中有着广泛而深入的应用。在宏观经济学中,贝叶斯VAR模型通过先验压缩大规模VAR的参数空间,解决了经典方法中自由度过大的问题。在微观计量经济学中,层级贝叶斯模型被广泛用于消费者异质性分析——如离散选择模型中随机系数的估计。在资产定价中,贝叶斯方法为投资组合理论中参数不确定性的处理提供了自然框架,允许投资者综合历史数据和主观判断构建最优组合。在结构估计中,贝叶斯方法将理论模型的结构参数视为随机变量,通过先验引入经济理论的定性约束,在DSGE模型的参数校准中发挥了关键作用。

贝叶斯统计与频率学派统计并非互斥的范式,而是适用于不同分析场景的互补工具。当存在可靠的先验信息时贝叶斯推断效率更高,当需要保证频率性质时频率方法更适用。理解两种范式的异同及其各自的适用条件,是现代计量经济学训练的重要组成部分。