ARTICLE
statistical inference
统计推断 (Statistical Inference) 统计推断是从样本数据中得出关于总体(population)或数据生成过程之结论的一套理论、方法与程序。它是计量经济学的数学基础,也是经济学从理论走向经验验证的桥梁。统计推断的核心问题可以概括为:给定有限且带有随机性的观测数据,我们能对产生这些数据的未知机制做出什么样的判断,以及这些判断的不确定性有多大
统计推断 (Statistical Inference)
统计推断是从样本数据中得出关于总体(population)或数据生成过程之结论的一套理论、方法与程序。它是计量经济学的数学基础,也是经济学从理论走向经验验证的桥梁。统计推断的核心问题可以概括为:给定有限且带有随机性的观测数据,我们能对产生这些数据的未知机制做出什么样的判断,以及这些判断的不确定性有多大?
统计推断的基本框架
统计推断的出发点是对数据生成过程的概率建模。设观测数据为 ,它们被视为从某个总体分布 中抽取的样本。统计推断的任务是,基于样本构造统计量 ——一个不依赖于任何未知参数的可计算函数——来推断 的某些特征。
形式上,假设总体分布属于某个参数族 ,其中 为未知的参数向量, 为参数空间。统计推断的目标包括:
- 点估计:寻找一个统计量 作为 的"最佳猜测"。
- 区间估计:构造一个随机区间 ,使得它以给定的概率覆盖真值 。
- 假设检验:基于数据判决是否拒绝关于 的某一假设 。
这三者构成统计推断的经典三角,而在当代计量经济学中,它们被统一于决策理论和贝叶斯推断的框架之下。
估计理论
点估计
点估计量 是一个从样本空间映射到参数空间的函数。评价点估计量的核心标准包括:
- 无偏性: 对所有 成立。无偏性意味着估计量在重复抽样下"正中靶心"。
- 一致性: 当 。大样本下估计量收敛到真值,这是最低限度的合理要求。
- 有效性:在所有无偏估计量中,具有最小方差的称为最小方差无偏估计量(MVUE)。Cramér-Rao下界给出了无偏估计量方差的理论下限。
- 渐近正态性:,这为构造大样本置信区间和检验统计量提供了基础。
极大似然估计(MLE)是应用最广泛的点估计方法。给定独立同分布样本,似然函数为 ,MLE 定义为使似然函数(或等价地,对数似然 )最大化的参数值:
MLE具有优良的大样本性质:在适当的正则条件下,它是一致、渐近正态且渐近有效的——其渐近方差达到Cramér-Rao下界。这些性质使MLE成为计量经济学中非线性模型(如Logit、Probit、结构估计)的首选方法。
矩估计法(Method of Moments, MM)和广义矩方法(GMM)则是另一类重要的估计策略。GMM由Hansen(1982)提出,基于总体矩条件 ,通过最小化样本矩的二次型来估计 :
GMM在经济学中的应用极为广泛,因为它允许在不需要完全指定分布的情况下进行估计——只需矩条件来自经济理论本身,如欧拉方程、理性预期条件等。
区间估计
点估计本身不传达不确定性的大小。置信区间弥补了这一缺陷。对于给定的置信水平 (通常取95\%),一个置信区间 满足:
这里概率陈述是关于区间 的随机性,而非参数 (在频率学派框架中, 是固定的未知常数)。置信区间的构造通常基于枢轴量(pivotal quantity)——其分布不依赖于未知参数——或利用渐近正态性:
其中 为估计的标准误, 为标准正态分布的临界值。在经济学期刊中,报告点估计的同时附上标准误或置信区间已成为规范,这正是统计推断的不确定性量化功能的体现。
假设检验
假设检验是统计推断的统一方法论中最具操作性的部分,也是经济学经验研究中进行理论证伪的主要工具。
Neyman-Pearson框架
Neyman-Pearson范式设定了两个竞争的假设:原假设 和备择假设 。基于检验统计量 和拒绝域 ,决策规则为:若 ,则拒绝 ;否则不拒绝。
两种错误类型定义了检验的性能:
- 第一类错误(Type I Error): 为真却被拒绝,概率为 。
- 第二类错误(Type II Error): 为真却未拒绝 ,概率为 。功效(power)定义为 。
Neyman-Pearson引理证明:对于简单假设 vs ,似然比检验在所有水平为 的检验中具有最高的功效。这一最优性结果奠定了似然比方法在假设检验中的核心地位。
实践中,经济学研究广泛使用三种渐近等价的检验:
- Wald检验:基于无约束估计量 与 约束的距离,。
- 似然比检验:比较有约束与无约束下的对数似然值,。
- 拉格朗日乘数检验(Score Test):仅使用在 约束下的估计,检查该处的得分向量是否接近于零。
p值与显著性
p值定义为在原假设下观察到比当前样本更极端结果的概率:。它提供了反对 的证据强度——p值越小,数据与 的不一致程度越大。
近年来,经济学界对p值的滥用与误用进行了深刻反思。美国统计协会(ASA)2016年的声明明确指出:p值不度量 为真的概率,也不度量效应的大小或实际重要性。仅以 作为"显著性"的机械门槛导致了发表偏倚和p值操纵(p-hacking)等问题。《美国经济评论》等顶刊已推动预注册(pre-registration)和稳健性报告以应对这些挑战。
频率学派与贝叶斯推断
统计推断的哲学基础分裂为两大阵营,这一分裂对经济学方法论产生了深远影响。
频率学派(Frequentist)将概率理解为长期频率,参数 视为固定未知常数,所有概率陈述都关于统计量在重复抽样下的行为。前文所述的MLE、GMM、Wald检验和置信区间均属于频率学派传统。其优势在于客观性和可操作性强,弱点是解释的间接性——置信区间并不提供" 有95\%概率落在该区间"这样的陈述。
贝叶斯推断(Bayesian Inference)则将概率解释为主观信念程度,参数 本身也被视为随机变量。贝叶斯定理提供了从先验信念到后验信念的更新规则:
其中 为先验分布,编码了观测数据前研究者对 的信念; 为似然函数; 为后验分布,综合了先验信息与数据信息。贝叶斯推断直接给出关于参数的概率陈述——可信区间(credible interval)具有" 有95\%的概率落在 内"的自然解释。
在经济学中,贝叶斯方法在宏观经济学(如DSGE模型的估计)、资产定价(随机波动率模型)、微观计量(分层模型、随机系数模型)以及实验经济学(多臂老虎机问题)中得到了广泛应用。马尔可夫链蒙特卡洛(MCMC)方法——特别是Gibbs采样和Metropolis-Hastings算法——使高维后验分布的数值计算变得可行,极大地推动了贝叶斯方法的实用化。
统计推断在经济学中的关键议题
识别问题
统计推断的前提是参数可识别——不同的 值必须导致可区分的观测结果分布。识别(identification)是计量经济学区别于一般统计学的核心概念。在结构计量经济学中,研究者必须证明:即使样本量趋于无穷,经济理论参数是否能从联合分布的某些可观测特征中唯一恢复。供给与需求的同时性、选择偏误和遗漏变量是识别面临的经典挑战,工具变量、断点回归和双重差分是应对这些挑战的核心策略。
稳健推断
经典推断依赖于一系列分布假设(正态性、同方差性、独立性等)。当这些假设不成立时,标准误和检验可能严重失真。现代计量经济学发展了大量稳健推断方法:异方差稳健标准误(White, 1980)、聚类标准误(cluster-robust)、自举法(bootstrap)和随机化推断(randomization inference)等,使推断结果对模型设定错误具有一定的免疫力。
多重检验
当研究者同时检验多个假设时,即使所有原假设都为真,纯粹由于抽样变异,也会有5\%的检验在0.05水平上"显著"。多重比较问题在基因组经济学、发展经济学的田野实验以及任何涉及大量协变量的研究中尤为突出。Bonferroni校正、错误发现率(False Discovery Rate, FDR)控制和收缩估计(shrinkage)是处理此问题的主要技术。
总结
统计推断为经济学从理论迈向数据提供了严谨的方法论框架。从高斯的最小二乘法到Hansen的GMM,从Fisher的似然理论到当代的贝叶斯计算革命,统计推断不断演进以适应经济数据的复杂性——非实验性、高维性、异质性和相依性。它是经验经济学家最核心的方法论素养,也是连接理论模型与政策分析的不可或缺的桥梁。