ARTICLE
外部效度
外部效度 (External Validity) 外部效度 (External Validity) 指实证研究结论可推广至其他情境、人群、时间或地点的程度,与内部效度共同构成研究质量评价的两大支柱。内部效度回答因果推断本身是否可信,外部效度回答该推断在多大范围内适用。二者存在张力但又互补:高内部效度依赖随机化与严格实验控制,却常以牺牲外部效度为代价;追求广泛
外部效度 (External Validity)
外部效度 (External Validity) 指实证研究结论可推广至其他情境、人群、时间或地点的程度,与内部效度共同构成研究质量评价的两大支柱。内部效度回答因果推断本身是否可信,外部效度回答该推断在多大范围内适用。二者存在张力但又互补:高内部效度依赖随机化与严格实验控制,却常以牺牲外部效度为代价;追求广泛推广性则可能削弱因果识别的精确性。缺乏外部效度的发现即便内部效度再高,也只是局部真知,难以服务于一般性科学理解或政策决策参考。外部效度的评估本质上是跨情境推断问题,涉及从已知样本向未知总体的外推过程,其可靠性取决于研究者对效应异质性来源的理解深度。
核心概念与四个维度
外部效度包含两个关键概念:可推广性 (Generalizability) 指从样本推广至同一总体的未观测部分;可移植性 (Transportability) 指跨不同总体的推广。坎贝尔 (Campbell, 1957) 首次系统区分内外效度,后经 Cook 与 Campbell (1979) 精炼完善。从直觉理解,外部效度类似于地图的可用范围:市区图在城区内极为精确(内部效度高),但用于导航至另一城市则完全失效。实验室中证明有效的激励政策在真实市场可能因制度差异与社会规范不同而大打折扣。外部效度是程度问题而非二值属性,研究者可针对人群、地点、时间、干预类型及结果测量等维度分别评估。
外部效度的四个主要维度如下。人群效度关注样本至目标总体的推广,主要威胁包括便利样本偏差(如行为经济学多用大学生样本,而学生的风险偏好与社会经济背景异于一般人群)及处理效应异质性;应对策略包括概率抽样、事后加权调整及样本选择建模。例如一项使用美国中产阶级样本得出的储蓄行为结论,在推广至中国农村居民时可能完全失效,根源即在于收入水平、社会保障体系与文化观念的显著差异。情境效度关注不同制度与文化背景的推广,需依赖自然实验或多国复制剥离情境异质性。例如最低工资对就业的影响在美法两国截然不同,根源即在于劳动力市场制度的差异——美国灵活就业市场与法国严格劳动保护制度塑造了不同的企业调整空间。又如一项在发达国家验证的减税政策,在制度薄弱、征税能力有限的发展中国家可能产生完全不同的激励效果,因为纳税遵从度与政府执行力的差异会从根本上改变政策的实际传导机制。时间效度关注不同历史时期的推广,经典例证为菲利普斯曲线在1970年代滞胀时期失效,充分说明经济关系的时间不稳定性与结构性变迁的影响。同一因果关系在金融危机前后、政策改革前后可能呈现完全不同的模式。技术变革也会改变外部效度的时间维度:互联网普及前的消费者行为研究结论,在数字时代可能因购物渠道与信息获取方式的根本变化而失去适用性。干预与结果效度关注实验处理与现实政策的差异及替代指标的测量效度,当实验室干预强度远低于现实政策力度时,外部效度随之下降,需要谨慎校准。此外,自变量的操作化定义与真实世界政策变量之间可能存在本质差异,研究者需对这种距离有清醒认识。干预剂量、实施方式与政策环境的交互作用都是评估干预效度时不可忽视的关键因素。
权衡关系与前沿方法
内外效度常存在权衡:Angrist 与 Pischke (2010) 强调内部效度优先,认为应先确认因果效应是否存在,再问是否可推广。Deaton (2010) 则尖锐指出RCT样本范围有限且实验环境可能改变参与者行为,质疑其政策参考价值。Lucas 批判 (Lucas Critique) 从另一角度论证了结构性关系的非不变性:当政策环境变化时,基于历史数据估计的参数可能不再适用,这对任何未经外部效度检验的实证结论都构成了方法论层面的挑战。近年来学术趋势已从报告平均处理效应 (ATE) 转向解释效应异质性,通过条件平均处理效应 (CATE) 估计探索效应在不同子群体中的分布模式,从而系统评估推广边界并识别限制条件。这一转变标志着实证研究从"是否存在因果效应"的二元判断走向"因果效应在何种条件下成立"的细致刻画。
增强外部效度的典型方法包括多站点RCT、外推检验(如平行趋势假说检验)、数据融合技术(将RCT数据与行政数据结合,采用倾向得分加权校正选择性偏差)。Henrich 等人的跨文化实验表明"理性人"假设在非WEIRD社会经常不成立,这对行为经济学的外部效度构成了根本性挑战。Allcott (2015) 在绿色能源社会规范实验中展示了跨地点系统性评估外部效度的范例。常用检验方法包括交互作用分析、倾向得分加权外推检验、敏感性分析及元回归分析。Manski (2013) 提出最坏情况边界分析法,用以量化外推过程的不确定性。近年来,结构性经济模型与简约式估计的结合为外部效度评估提供了新路径:前者通过显式建模经济主体的决策规则实现跨情境仿真预测,后者则通过随机化识别局部因果效应,二者互补可以更完整地回答因果推断的可推广性问题。
外部效度是实证研究从局部因果推断走向一般性科学理解的核心环节。研究者应在设计阶段即面向外部效度,诚实报告样本特征与招募方式,主动检验异质性是否存在系统模式,明确声明结论的推广边界。系统性复制、元分析和结构性估计是应对该挑战的核心工具。没有任何单一研究能同时实现完美的内部效度与外部效度,科学进步依赖于研究社区在两者之间反复迭代,逐步逼近更一般的因果知识。理解外部效度的限制本身就是一种科学增益——它告诉我们何种条件下、对什么人、在什么范围内,某个因果推断成立或不成立,进而推动理论的发展与完善。在政策应用场景中,外部效度的系统评估更是连接学术研究与公共决策的关键桥梁,从局部发现走向普适知识正是实证科学不懈追求的目标。