ARTICLE

可重复性

可重复性:科学研究的基石与当代挑战 可重复性(Reproducibility / Replicability)是现代科学方法论的核心概念,指独立研究者使用相同或类似的方法、数据和条件,能够获得与原始研究一致的结果。这一原则根植于科学哲学的基本假设——自然现象具有稳定的规律性,而科学发现必须能够经受独立的检验。自 2010 年代以来,心理学、医学、经济学等多个

浏览 0 更新 2026-07-15

可重复性:科学研究的基石与当代挑战

可重复性(Reproducibility / Replicability)是现代科学方法论的核心概念,指独立研究者使用相同或类似的方法、数据和条件,能够获得与原始研究一致的结果。这一原则根植于科学哲学的基本假设——自然现象具有稳定的规律性,而科学发现必须能够经受独立的检验。自 2010 年代以来,心理学、医学、经济学等多个学科相继爆发"可重复性危机"(Replication Crisis),使得这一概念从实验室的幕后跃升为全球科学界最具紧迫性的议题之一。

定义辨析:可重复性的三个层次

在学术讨论中,可重复性通常被区分为三个紧密相关但含义不同的层次。第一层是计算可重复性(Computational Reproducibility),指使用原始研究提供的同一数据集和同一分析代码,能够重新计算出完全一致的结果。这是可重复性的最低标准,也是最基本的要求——如果连原始研究者自己都无法复现计算结果,后续的验证就无从谈起。第二层是实证可重复性(Empirical Reproducibility),指在相同的实验或观测条件下(相同的地点、人群、时间窗口),通过重新收集数据来验证原始发现。第三层是概念可重复性(Conceptual Replicability),指通过不同的实验设计、不同的测量方式或不同的分析策略来检验同一理论假设的稳健性。三者构成了一个从"严格复现"到"理论验证"的渐进光谱,每一层的难度和科学价值都依次递增。

美国国家科学院在 2019 年发布的重磅报告《可重复性与科学严谨性》中,进一步明确了"Reproducibility"(使用相同数据和分析方法得到相同结果)与"Replicability"(通过新的数据收集来验证先前结论)的术语分工,为全球学术讨论提供了标准化框架。

可重复性危机的全景

可重复性危机并非单一事件,而是一系列系统性的学术反思运动。2011 至 2012 年间,心理学家 Daryl Bem 发表的"超感知觉"实验无法被重复,以及"社会启动效应"(Social Priming)的全面坍塌,揭开了心理学可重复性危机的序幕。2015 年,Open Science Collaboration 组织对 100 项心理学高影响力研究进行的系统复制实验发现,仅有约 36\% 的复制研究得到了与原始研究一致的统计显著结果。这一结论震动学界,也推动了其他学科的系统自查。

经济学领域,可重复性问题的严峻性同样不容忽视。2016 年,《经济学季刊》(QJE)发起复制性研究项目,开始要求作者提交数据和代码。2021 年发布的《经济学可重复性项目》对六大顶级经济学期刊的 300 余篇论文进行检验,结果发现超过一半的论文无法仅依靠作者提供的材料完全复现其核心结果。实验经济学领域的复制率略高,但仍远低于理想水平。

医学领域的情况同样令人担忧。Bayer 制药公司在 2011 至 2012 年间尝试复现 67 篇高影响力生物医学研究中的关键结果,成功率仅为 20\%—25\%。Ioannidis 在 2005 年发表的经典论文《为什么大多数已发表的研究结果是错误的》从数理统计角度论证了低先验概率、小样本量和灵活的统计分析如何系统性地导致错误结论被发表。

危机的根源

可重复性危机有着深层的制度性根源。首先,发表偏倚(Publication Bias)使得学术激励机制严重偏向正面、新颖、统计显著的结果,而零结果和复制研究几乎无法在顶级期刊上发表。这种"发表或灭亡"(Publish or Perish)的压力催生了p-hacking——研究者无意识地通过调整样本、变量定义或统计方法,直到获得显著的 p 值。Simmons 等人的经典模拟研究显示,仅仅是增加"是否排除离群值"和"是否对变量进行转换"等自由度的灵活决策,就能将假阳性率从标的 5\% 推升至超过 60\%。

其次,样本量不足(Low Statistical Power)是另一个普遍问题。由于经费和资源限制,大量研究无法收集到足以检测实际效应量的样本。低功效研究不仅更难以发现真实效应,还意味着那些偶然显著的发现中有更大比例是假阳性——即所谓的"赢家的诅咒"(Winner's Curse)。

第三,数据与代码不透明是计算可重复性的直接障碍。历史上,许多经济学期刊并未强制要求作者提交数据与代码,或者即使提交也缺乏系统性的验证流程。研究者使用专有数据、不公开代码、或者仅提供选择性文档的情况十分普遍。

应对与改进:可重复性基础设施的构建

面对危机,全球科学界已经启动了多维度的改革。在期刊层面,Top期刊逐步实施强制性数据与代码提交制度。《经济研究评论》自 2014 年起要求所有论文提交复制包;美国经济评论(AER)建立了专门的复制实验室,在论文发表前对数据和代码进行独立验证。\wiki{心理科学》在 2014 年引入了"注册报告"(Registered Reports)格式——在数据收集前先接受研究方案和方法的同行评审,从而消除发表偏倚和 p-hacking 的空间。

在技术层面,计算可重复性工具日趋成熟。R MarkdownJupyter Notebook 等可复现计算平台使得研究者能够将分析代码、结果呈现和叙述文本整合在同一文档中。DockerBinder 等容器化技术解决了软件环境差异导致的可重复性难题——通过封装完整的计算环境(包括操作系统、软件包版本和依赖关系),确保分析可以在任意机器上精确重现。Open Science FrameworkGitHub 等平台为数据的持久化存储、版本管理和公开访问提供了基础设施。

在制度层面,预注册(Pre-registration)制度的推广正在改变研究文化。通过在数据收集前在公开平台上提交研究假设、实验设计和分析计划,研究者能够明确区分"验证性分析"(Confirmatory Analysis)与"探索性分析"(Exploratory Analysis),从而抑制事后合理化(HARKing:Hypothesizing After the Results are Known)的诱惑。

可重复性的代价与收益

推进可重复性并非没有成本。强制提交数据与代码增加了作者的工作量;复制验证需要期刊配备额外的编审资源;预注册制度可能会限制探索性发现的灵活性。然而,这些代价与可重复性带来的长期收益相比是值得的。加拿大卫生研究院的一项估计显示,美国每年因不可重复的前临床研究而浪费的研发经费高达 280 亿美元。在经济学中,基于不可靠实证结果制定政策的经济代价更是难以估量。

更重要的是,可重复性不仅是一个方法论问题,更是一个科学文化问题。它挑战了"新颖性至上"的学术评价体系,要求学界重新平衡创新与稳健性、探索与验证之间的关系。正如 Daniel Kahneman 所言:"科学进步需要两种类型的研究者——那些发现新大陆的人,以及那些精确测绘已发现陆地的人。两者缺一不可。"

结语

可重复性不是学术完美主义的奢求,而是科学自纠错机制的核心组件。在数据丰富化、方法精密化、研究分工日益细化的当代,可重复性基础设施的建设已经从"可选项"转变为"必选项"。对于每一位研究者而言,接受可重复性不是对创造力的约束,而是对学术共同体承诺的履行——让每一项发现都能经得起时间的检验。