ARTICLE
证据主义
证据主义 (Evidentialism / Evidence-Based Approach) 证据主义具有两个紧密关联但层面不同的含义:在认识论中,它指一种关于信念确证 (Epistemic Justification) 的规范性理论——一个信念是否被确证,仅取决于主体所拥有的证据;在经济学与公共政策领域,它指一种方法论立场,主张经济分析和政策制定应以系统性
证据主义 (Evidentialism / Evidence-Based Approach)
证据主义具有两个紧密关联但层面不同的含义:在认识论中,它指一种关于信念确证 (Epistemic Justification) 的规范性理论——一个信念是否被确证,仅取决于主体所拥有的证据;在经济学与公共政策领域,它指一种方法论立场,主张经济分析和政策制定应以系统性的经验证据为核心基础,而非仅依赖理论推导、意识形态或权威直觉。
认识论根源
证据主义的经典哲学表述来自 Richard Feldman 和 Earl Conee 的 证据主义论题 (Evidentialist Thesis):对于任何主体 、任何时刻 和任何命题 , 在 时刻对 的信念的确证状态由 在 时刻拥有的证据的质量和数量唯一决定。这一立场与可靠主义 (Reliabilism) 和实用主义 (Pragmatism) 形成对照:可靠主义以信念形成过程的可靠性为确证标准,实用主义以信念所产生的实际后果为评价依据,而证据主义坚持只有证据本身具有规范力。
在贝叶斯统计框架中,证据主义获得了数学化的精确表达。贝叶斯定理将先验信念 与观测证据结合,产生后验信念 :
这一公式体现了证据主义的核心理念:信念的更新必须且仅由证据驱动,且更新的力度由似然比 所量化。
证据等级与可信度革命
在应用经济学中,证据等级 (Hierarchy of Evidence) 是对不同研究设计所产生证据强度的系统性排序。从高到低,典型的等级结构为:
- 系统综述与元分析:对多项独立研究结果的统计整合,通过增加有效样本量和评估异质性来获得更精确的效应估计。
- 随机对照试验 (RCT):通过随机分配处理组与对照组来消除选择偏差,确立因果关系。2019年诺贝尔经济学奖授予 巴纳吉 (Banerjee)、迪弗洛 (Duflo) 和 克雷默 (Kremer),正是对其在发展中经济学中推广 RCT 方法的认可。
- 准实验方法:包括双重差分 (DiD)、断点回归 (RDD)、工具变量 (IV) 和倾向得分匹配 (PSM) 等,利用自然实验或制度特征来近似随机分配。
- 观测性研究:基于调查数据或行政记录的相关性分析,受混杂因素和内生性问题的约束较大。
- 案例研究与专家意见:提供机制性洞见和假设生成的基础,但因果推断力最弱。
Angrist 和 Pischke 所命名的可信度革命 (Credibility Revolution) 是证据主义在当代经济学中最具影响力的体现。自 20 世纪 90 年代以来,经验微观经济学的研究重心从对回归系数的一般性解释转向了对特定因果参数的严格识别,核心问题从"变量 与 是否相关"转变为"我们是否可信地估计了 对 的因果效应"。
证据主义政策的实践框架
证据主义在政策制定中的应用超越了简单的事实核查。一个系统性的证据主义政策框架 (Evidence-Based Policy Framework) 包含以下环节:
- 问题诊断:使用描述性统计和探索性数据分析精确界定问题的规模、分布和时间趋势。
- 机制识别:通过理论和先验研究确定关键行为参数和制度约束。
- 干预设计与预注册:在数据收集之前明确研究设计、假设和分析计划,防止 -hacking 和结果选择性报告。
- 效果评估:运用上述因果推断方法量化干预的处理效应。
- 成本效益分析:将效应估计值与干预成本结合,进行福利分析。
局限性与批判
证据主义并非没有争议。其核心张力来自于证据的固有局限性:
- 外部有效性问题:RCT 或特定准实验所估计的处理效应在多大程度上可以推广到其他人群、时期或制度环境,本质上是不可检验的。每一个研究设计都隐含了结构模型假设,而这些假设本身无法通过简化形式证据来验证。
- 证据生产的政治经济学:资助者偏好、发表偏差 (Publication Bias) 和学术激励结构可能扭曲证据生产的选题和报告。统计显著的、符合资助方利益的结论更可能被发表和引用,形成证据的筛选机制。
- 理论与证据的张力:极端证据主义可能滑向一种"无理论的实证主义",将因果推断简化为纯粹的统计操作。结构计量经济学的支持者指出,缺乏理论结构的简化形式估计在回答反事实和福利比较问题时存在根本性局限——政策评估本身就是一项反事实推理,而反事实需要模型。
- 认识论循环:证据的选择、解释和加权依赖于先验的理论框架和价值判断。何种研究设计被视为"更可信"、哪种效应量被视为"有实质意义",本身是学术共同体协商性共识的产物,而非纯粹客观的标准。