ARTICLE
贝叶斯统计 (Bayesian statistics)
贝叶斯统计 (Bayesian statistics) 贝叶斯统计(Bayesian statistics)是以贝叶斯定理为核心的一整套统计推断范式,其基本思想是将未知参数视为随机变量,通过先验分布表达分析者在观测数据之前对参数的既有认知,再利用观测数据通过似然函数更新这一认知,最终得到后验分布。后验分布综合了先验信息和数据信息,是所有贝叶斯推断——点估计、
贝叶斯统计 (Bayesian statistics)
贝叶斯统计(Bayesian statistics)是以贝叶斯定理为核心的一整套统计推断范式,其基本思想是将未知参数视为随机变量,通过先验分布表达分析者在观测数据之前对参数的既有认知,再利用观测数据通过似然函数更新这一认知,最终得到后验分布。后验分布综合了先验信息和数据信息,是所有贝叶斯推断——点估计、区间估计、假设检验和预测——的基础。与频率学派统计将参数视为固定未知常数、仅通过样本的重复抽样性质进行推断不同,贝叶斯统计明确将主观或客观的先验知识纳入分析框架,提供了一套统一的概率推理语言。
贝叶斯定理的核心结构
贝叶斯统计的数学基础是贝叶斯定理。设 为未知参数, 为已观测数据。贝叶斯定理的连续形式为:
其中, 为先验分布——反映在观测数据前对参数 的认知; 为似然函数——给定参数 下观测到数据 的概率模型,与频率学派中的似然函数完全一致; 为后验分布——综合先验和数据后对参数 的更新认知; 为边缘似然或归一化常数,保证后验分布积分为1。
由于分母 不依赖于 ,贝叶斯推断中常使用比例形式:。该简洁表达式揭示了贝叶斯学习的本质:后验正比于先验乘以似然。
先验分布的类型与选择
先验分布的选择是贝叶斯统计的核心议题。常见的先验类型包括:
- 无信息先验:当分析者对参数缺乏实质性的先验知识时,采用对数据影响最小的先验,如拉普拉斯提出的均匀先验或Jeffreys先验。Jeffreys先验具有参数变换不变性,其形式为 ,其中 为Fisher信息量。
- 共轭先验:若先验分布与后验分布属于同一分布族,则称该先验为似然函数的共轭先验。例如,二项似然的共轭先验为Beta分布,正态似然(方差已知)的共轭先验为正态分布,正态似然(均值已知)下方差参数的共轭先验为逆伽玛分布。共轭先验使后验计算解析可解,在教学中被广泛使用。
- 层级先验:将先验分布本身参数化,并对超参数再赋予先验,形成层级贝叶斯模型。层级模型在处理组间异质性、随机效应等结构化数据时具有显著优势。
- 信息先验:当存在来自历史研究、专家意见或理论约束的实质性先验知识时,通过调节先验参数将信息纳入分析。
先验选择的敏感性分析是贝叶斯实践中的重要环节——通过比较不同先验下的后验结果,评估结论对先验假设的稳健程度。
贝叶斯推断
基于后验分布 ,贝叶斯推断包含以下主要形式:
点估计通常取后验均值 (在平方损失下为最优)或后验众数(最大后验估计,MAP估计)。当先验为无信息先验时,MAP估计退化为最大似然估计(MLE)。
区间估计使用可信区间:给定概率水平 ,可信区间 满足 。与频率学派的置信区间不同,可信区间提供了直接的、符合直觉的概率陈述——参数有 的概率落在该区间内。
假设检验通过后验概率比或贝叶斯因子进行比较。贝叶斯因子定义为两个模型的边缘似然之比:。 表示数据支持模型1而非模型2。
预测分布用于对未来观测 进行推断:,自动综合了参数不确定性和抽样变异性。
计算方法:MCMC
除少数使用共轭先验的情形外,后验分布通常没有解析表达式,需借助数值方法。马尔可夫链蒙特卡洛(MCMC)是贝叶斯计算的主流方法,其核心思想为构造一个以目标后验分布为平稳分布的马尔可夫链,通过大量采样近似后验分布。常用算法包括:Metropolis-Hastings算法通过接受-拒绝机制从任意提议分布中实现目标后验采样;Gibbs采样作为MH的特例,通过对各参数的满条件分布依次采样实现对多维后验的高效探索;Hamiltonian Monte Carlo(HMC)利用梯度信息抑制随机游走行为,在STAN等现代贝叶斯软件中得到广泛应用。
在经济学中的应用
贝叶斯方法在经济学和计量经济学中有着广泛而深入的应用。在宏观经济学中,贝叶斯VAR模型通过先验压缩大规模VAR的参数空间,解决了经典方法中自由度过大的问题。在微观计量经济学中,层级贝叶斯模型被广泛用于消费者异质性分析——如离散选择模型中随机系数的估计。在资产定价中,贝叶斯方法为投资组合理论中参数不确定性的处理提供了自然框架,允许投资者综合历史数据和主观判断构建最优组合。在结构估计中,贝叶斯方法将理论模型的结构参数视为随机变量,通过先验引入经济理论的定性约束,在DSGE模型的参数校准中发挥了关键作用。
贝叶斯统计与频率学派统计并非互斥的范式,而是适用于不同分析场景的互补工具。当存在可靠的先验信息时贝叶斯推断效率更高,当需要保证频率性质时频率方法更适用。理解两种范式的异同及其各自的适用条件,是现代计量经济学训练的重要组成部分。