ARTICLE

实证研究

实证研究 (Empirical Research) 实证研究 (Empirical Research) 是经济学中最基本的研究范式之一,指通过系统收集现实世界的观察数据,运用统计与计量方法对经济理论进行检验、对经济现象进行描述或对政策效果进行评估的科学方法。与理论经济学通过逻辑演绎构建模型不同,实证研究的核心特征在于以经验证据为最终判据,强调"让数据说话"。

浏览 4 更新 2025-10-26

实证研究 (Empirical Research)

实证研究 (Empirical Research) 是经济学中最基本的研究范式之一,指通过系统收集现实世界的观察数据,运用统计与计量方法对经济理论进行检验、对经济现象进行描述或对政策效果进行评估的科学方法。与理论经济学通过逻辑演绎构建模型不同,实证研究的核心特征在于以经验证据为最终判据,强调"让数据说话"。弗里德曼在其1953年经典论文《实证经济学方法论》中奠定了现代经济学实证主义的方法论基础:理论的有效性不在于假设的现实性,而在于其预测的准确性。

实证研究的方法论结构

实证研究通常遵循假设-演绎模型(Hypothetico-Deductive Model):首先从经济理论中推导出可检验的假说,根据假说设计研究方案、收集或获取数据,再运用适当的计量方法进行参数估计与假设检验,最后解释结果并评估其对理论或政策的含义。这一过程与波普尔的证伪主义密切相关——假设必须具有可证伪性,即存在被经验证据否定的可能性。

在经济学中,实证研究可大致分为三类:描述性研究旨在刻画经济现象的基本特征(如收入不平等的时间趋势);相关性研究探索变量间的统计关联(如教育与收入的正相关);因果研究致力于识别变量之间的因果效应(如教育年限每增加一年对收入有多少因果性提升)。现代应用微观经济学的"可信性革命"(Credibility Revolution)已将因果推断推至实证研究的核心地位,安格里斯特皮施克的《基本无害的计量经济学》是这一运动的方法论宣言。

数据类型与来源

实证研究所依赖的数据主要有三种结构:

  • 横截面数据(Cross-Sectional Data):在同一时点对多个个体(个人、企业、国家)的观测,如家庭调查人口普查。横截面分析的核心挑战在于控制不可观测的个体异质性。
  • 时间序列数据(Time Series Data):对同一单位在不同时点的重复观测,如GDP季度数据。分析中需特别关注单位根协整自相关问题。
  • 面板数据(Panel Data):上述两者的结合,同时包含横截面和时间维度。面板数据能控制个体固定效应,缓解遗漏变量偏误,已成为当代实证研究最常用的数据形式。

数据的来源渠道日益多元:传统的大型社会调查(如美国的PSID、中国的CFPSCHFS)、政府行政记录(税务、社保、教育注册数据)、卫星遥感数据、网络抓取数据以及公司内部经营数据。大数据和机器学习的兴起正在扩展实证研究的边界,但也带来过拟合和虚假相关等新的计量挑战。

因果推断与识别策略

观测性数据面临的根本挑战是内生性问题:若解释变量与误差项相关,OLS估计将不一致。内生的三大来源是遗漏变量偏误、测量误差和联立因果(反向因果)。应对内生性、实现可信因果推断的五种核心识别策略如下:

  1. 随机对照试验(Randomized Controlled Trial, RCT):通过随机分配处理组与对照组,确保两组在可观测和不可观测特征上均衡,从而隔离出处理的因果效应。RCT是因果推断的"金标准",在发展经济学中应用广泛(如班纳吉迪弗洛等人的田野实验),但面临成本高昂、外部有效性受限和伦理约束等局限。
  2. 工具变量(Instrumental Variable, IV):寻找一个与内生的解释变量相关、但与误差项不相关的工具变量,利用两阶段最小二乘法(2SLS)估计因果效应。经典案例如安格里斯特用征兵抽签号作为兵役经历的工具变量估计兵役对收入的因果影响,以及卡德使用Mariel Boatlift事件作为移民供给冲击的工具变量。
  3. 双重差分法(Difference-in-Differences, DiD):比较处理组与对照组在处理前后的结果变化之差,以消除两组间不随时间变化的差异和共同时间趋势。DiD的关键识别假设是平行趋势假设。近年来,多期DiD交叠处理情形下的估计偏误问题受到大量关注,CallawaySant'Anna以及SunAbraham等提出了异质处理效应下的稳健估计量。
  4. 断点回归(Regression Discontinuity Design, RDD):当处理分配在一个连续变量的某个临界值处发生概率跳跃时,比较临界值两侧邻近个体的结果,可估计局部因果效应。RDD分为精确断点和模糊断点两种。其内部有效性较强,但估计的是临界值附近的局部平均处理效应(LATE),外部推广受限。
  5. 匹配方法(Matching Methods):基于可观测特征为每个处理个体匹配一个特征相似的对照个体,在条件独立性假设(CIA)下识别平均处理效应。倾向得分匹配(Propensity Score Matching, PSM)由RosenbaumRubin提出,将多维匹配降维至一维倾向得分。

内部有效性与外部有效性

内部有效性(Internal Validity)指研究在其自身样本和情境中正确识别因果效应的程度,威胁来自遗漏变量、测量误差、样本选择偏倚和消耗偏倚等。外部有效性(External Validity)指研究结论能否推广到其他人群、时期或情境。两种有效性之间存在权衡:实验室实验或严格设计的RCT通常具有较高的内部有效性但外部有效性受限;而基于代表性样本的调查研究外部有效性较强但内部有效性较弱。赫克曼等强调,好的实证研究不应将两种有效性对立,而应通过多种方法和多个情境的交叉验证来综合增强。

透明度、可重复性与规范

近年来,经济学界对研究透明度可重复性的重视日益增强。预注册(Pre-registration)要求研究者在数据收集或分析前公开研究设计和分析计划,以抑制p-hacking和选择性报告。预分析计划(PAP)在RCT中已成为标准实践。数据与代码的公开共享使独立研究者可以复现结果,《美国经济评论》等顶级期刊已普遍要求作者提供复现材料。可重复性危机的冲击已从心理学蔓延至经济学,推动了一系列方法论的自我审视与改革。

局限与反思

实证研究存在本体论和操作层面的双重局限。本体论上,休谟问题表明从经验观察中无法逻辑必然地得出普遍性因果规律,归纳法永远存在不可消除的不确定性。操作层面上,几乎所有观测性因果推断都依赖不可直接检验的识别假设(如工具变量的外生性、平行趋势假设),对这些假设的防御仅能通过间接的证伪检验(falsification tests)和安慰剂检验(placebo tests)来部分增强可信度。此外,发表偏倚文件柜问题可能导致已发表的实证结论系统性地偏向统计显著的结果,元分析方法论为定量综合并校正此类偏倚提供了工具手段。

实证研究在经济学方法论中占据着不可替代的位置,它将经济学从一门思辨性的哲学分支转化为可以经受经验检验的现代社会科学。卡德安格里斯特因对因果推断方法的贡献获得2021年诺贝尔经济学奖,标志着经济学界对实证研究方法论价值的高度认可。在可预见的未来,随着数据可及性的持续扩展和计量方法论的不断精进,实证研究仍将是经济学知识积累的最核心引擎。