ARTICLE

受控实验

受控实验 (Controlled Experiment) 受控实验 (Controlled Experiment) 是实证科学中最核心的因果推断方法,在经济学中特指研究者通过主动操控某一或某些关键变量(称为处理变量或干预),同时保持其他条件不变,以观察其因果效应的标准化研究设计。在理想的受控实验中,研究者通过随机分配 (Random Assignment)

浏览 0 更新 2025-10-26

受控实验 (Controlled Experiment)

受控实验 (Controlled Experiment) 是实证科学中最核心的因果推断方法,在经济学中特指研究者通过主动操控某一或某些关键变量(称为处理变量干预),同时保持其他条件不变,以观察其因果效应的标准化研究设计。在理想的受控实验中,研究者通过随机分配 (Random Assignment) 将受试者分为处理组 (Treatment Group) 和对照组 (Control Group),从而使两组在干预前在所有可观测与不可观测特征上具有统计可比性;两组在干预后所呈现的结果差异,便可被一致地归因于干预本身的因果效应。

受控实验的逻辑根基可追溯至 John Stuart Mill 的差异法 (Method of Difference) 以及 R.A. Fisher 在 20 世纪 20 年代于农业试验站发展出的随机化实验方法。Fisher 将随机化、重复 (Replication) 和区组设计 (Blocking) 确立为实验设计的三大基本原则,奠定了现代实验统计学的基石。经济学对受控实验的系统性采纳相对较晚:20 世纪中叶,Vernon Smith 等人开创了实验经济学 (Experimental Economics) 传统,在受控的实验室环境中检验博弈论预测和市场机制性能;而自 20 世纪 90 年代末起,以 Abhijit Banerjee、Esther Duflo 和 Michael Kremer 为代表的学者将随机对照试验 (Randomized Controlled Trial, RCT) 大规模引入发展经济学,标志着受控实验从实验室走向真实田野的范式转移。

核心要素与设计原则

一个高质量的受控实验必须满足以下关键条件:

  1. 随机分配 (Random Assignment):每个受试单位(个体、家庭、村庄、企业等)被分配至处理组或对照组的概率完全由随机机制决定,且与所有潜在结果无关。随机分配保证了处理前两组在可观测和不可观测特征上的平衡性,使选择偏误 E[Y0iDi=1]E[Y0iDi=0]E[Y_{0i} \mid D_i = 1] - E[Y_{0i} \mid D_i = 0] 在期望上为零。
  2. 对照组 (Control Group):对照组不接受干预,或接受安慰剂 (Placebo) 或标准处理,为衡量处理效应提供反事实基准。对照组的设置直接决定了实验所估计参数的经济含义——例如,当对照组接受另一项干预时,估计的是两种处理的相对效应而非绝对效应。
  3. 操控 (Manipulation):研究者对处理变量的取值施加主动控制,而非被动观察。这一操控性是受控实验区别于观察性研究 (Observational Study) 的本质特征。
  4. 保持其他条件不变 (Ceteris Paribus):通过随机化和实验环境的标准化,尽可能使处理组与对照组在干预之外的所有方面保持一致,从而隔离出处理的净效应。
  5. 可重复性 (Replicability):实验方案应当被详细记录,使其他研究者可以在不同时空条件下独立复制,以检验结论的稳健性。

内部效度与外部效度

受控实验的方法论优势集中体现于其卓越的内部效度 (Internal Validity)——即在研究样本范围内,因果效应的估计不受混杂偏误和选择偏误的污染。然而,内部效度之外,实验结论的推广性——即外部效度 (External Validity)——始终是实验方法面临的核心张力和批判焦点。

  • 内部效度威胁:即使实验使用了随机分配,仍可能受到不完全遵从 (Non-compliance)、损耗 (Attrition)、溢出效应 (Spillover Effects) 和霍桑效应 (Hawthorne Effect) 等因素的侵蚀。为此,现代实验设计引入了意向性分析 (Intention-to-Treat, ITT)、工具变量估计局部平均处理效应 (LATE) 以及多重假设检验校正等统计策略。
  • 外部效度挑战:实验室实验因人工环境的抽象性和简化性,其结论向真实市场环境的迁移始终存疑。田野实验 (Field Experiment) 在真实环境中实施干预,部分缓解了这一顾虑,但仍面临「特定人群—特定地点—特定时间」的推广局限。为此,研究者常采用跨站点多中心试验 (Multi-site Trials) 或通过结构性模型将简化式实验估计映射至更一般性的参数。

经济学中的实验谱系

受控实验在经济学中形成了一个从高内部效度到高外部效度的谱系:

  1. 实验室实验 (Lab Experiment):在大学实验室中,通常以学生为受试者,操控标准化的经济环境(如拍卖机制、议价规则、公共品博弈),用于检验博弈论的均衡精炼、市场机制的效率属性以及个体偏好(如社会偏好时间偏好风险偏好)的结构。Vernon Smith 因在此领域的贡献获 2002 年诺贝尔经济学奖。
  2. 田野实验 (Field Experiment):在自然的经济环境中施加随机干预,受试者通常不知晓自己正在参与实验。典型案例如随机分配信贷、培训、信息或补贴至不同村庄或个体,以估计其对贫困、教育、健康等结果的因果效应。Banerjee、Duflo 和 Kremer 因「减轻全球贫困的实验方法」获 2019 年诺贝尔经济学奖。
  3. 自然实验 (Natural Experiment):研究者并不主动操控处理,而是利用制度、政策或自然环境中的外生变异(如抽签、政策边界、气候冲击)来近似随机分配。虽然自然实验不具备「主动操控」这一受控实验的定义性特征,但其在不可行真正实验的情境中提供了次优但不可或缺的因果识别策略。工具变量断点回归 (RDD) 和双重差分 (DID) 是分析自然实验数据的主要计量工具。
  4. 调查实验 (Survey Experiment):通过在问卷中随机化问题的措辞、顺序或信息框架,识别偏好、态度和信念的因果驱动因素,常用于行为经济学和政治经济学研究。

与观察性研究的关键区分

观察性研究中,研究者仅被动记录现实中已经发生的变异,处理分配由经济主体的自选择 (Self-selection) 或制度规则决定,故处理组与对照组在处理前即可能存在系统性差异,导致选择偏误 (Selection Bias)。传统的计量经济学通过控制变量回归、匹配 (Matching) 或工具变量等方法试图在可观测维度上消除选择偏误,但始终无法排除不可观测混杂因素的威胁。受控实验通过随机化从设计层面切断了处理分配与潜在结果之间的关联,因而在方法论等级中占据因果推断的金标准地位。

然而,这种优势并非没有代价:受控实验通常成本高昂、耗时漫长,且受伦理约束——许多重要的经济政策问题(如货币政策的宏观效应、贸易自由化的福利后果)无法在随机实验框架下进行研究。这决定了受控实验与观察性方法在经济学实证工具箱中的互补关系,而非替代关系。

伦理与操作约束

受控实验在经济学中的实施受到严格的伦理审视。核心问题包括:知情同意原则——受试者是否充分理解实验的性质和潜在风险;公平原则——在资源稀缺的情境下,将有效干预仅随机分配给部分人群是否道德;以及均衡准则 (Principle of Equipoise)——只有当研究者对处理组与对照组何者更优存在真实不确定性时,随机分配才是伦理上可接受的。近二十年来,经济学实验的伦理规范已日趋成熟:预注册 (Pre-registration)、机构审查委员会 (IRB) 审批、数据公开和可再现性承诺正逐步成为实验研究的标准程序。

统计推断与检验力

受控实验的统计分析核心在于对处理效应进行无偏估计和假设检验。在经典的 Neyman-Rubin 潜在结果框架下,个体 ii 的处理效应定义为 τi=Y1iY0i\tau_i = Y_{1i} - Y_{0i},其中 Y1iY_{1i}Y0iY_{0i} 分别是个体接受处理和未接受处理时的潜在结果。由于无法同时观测同一个体的两种潜在结果——此即 Holland 所称的因果推断的基本问题——研究者转而估计平均处理效应 (Average Treatment Effect, ATE):τATE=E[Y1iY0i]\tau_{\text{ATE}} = E[Y_{1i} - Y_{0i}]。在随机分配下,处理组与对照组的均值之差 YˉTYˉC\bar{Y}_T - \bar{Y}_C 是 ATE 的无偏估计量。

实验设计阶段的关键决策之一是样本量的确定,它直接决定实验的统计检验力 (Statistical Power)——即当真实效应存在时,实验能够拒绝零假设的概率。最小可检测效应 (Minimum Detectable Effect, MDE) 依赖于期望的显著性水平 α\alpha、检验力水平 1β1 - \beta、结果变量的方差以及处理组与对照组的样本比例。在发展中经济学的田野实验中,由于单个实验点的成本高昂,研究者常采用分层随机化 (Stratified Randomization) 和聚类随机化 (Cluster Randomization) 以在给定预算下最大化统计效率——前者通过预先在关键协变量分层内随机化以降低残余方差,后者则在干预必须整群实施的场景下(如村庄层面的政策推广)通过增加聚类数量而非单个聚类内个体数量来提升有效样本信息。