ARTICLE
统计证据
统计证据 (Statistical Evidence) 统计证据是指运用统计学方法从数据中提取的、用于支持或反驳某一命题的定量信息。在经济学中,统计证据是实证研究的核心产出——研究者通过观测数据或实验数据,借助统计推断来判断经济理论的真伪、估计政策效应的大小以及预测经济变量的走势。广义的统计证据涵盖描述性统计量、假设检验结果、置信区间、回归系数估计及其标准误
统计证据 (Statistical Evidence)
统计证据是指运用统计学方法从数据中提取的、用于支持或反驳某一命题的定量信息。在经济学中,统计证据是实证研究的核心产出——研究者通过观测数据或实验数据,借助统计推断来判断经济理论的真伪、估计政策效应的大小以及预测经济变量的走势。广义的统计证据涵盖描述性统计量、假设检验结果、置信区间、回归系数估计及其标准误、拟合优度指标以及贝叶斯后验概率等多种形式。
统计证据的逻辑基础
统计证据的力量来源于概率论与抽样理论。其基本推理链条如下:
- 从样本到总体:研究者无法观察总体的全部个体,只能抽取有限样本。统计证据通过样本统计量(如样本均值 )对总体参数(如总体均值 )进行推断,并量化推断的不确定性。
- 反事实框架:在因果推断中,统计证据的核心问题是如何从观测数据中识别反事实结果。鲁宾因果模型(Rubin Causal Model)将每个个体的处理效应定义为 ,但两者不可能同时被观测,统计证据必须借助随机化、匹配或工具变量等识别策略来填补这一缺口。
- 概率与决策:统计证据不提供确定性知识,而是以概率形式表达不确定性。内曼-皮尔逊引理奠定了假设检验的理论基础,将决策错误分为第I类错误(弃真)和第II类错误(存伪),并以此权衡检验的功效。
核心概念
统计显著性与 p 值
p 值(p-value)是频率学派统计推断中最常用的证据度量。其定义为:在零假设 为真的前提下,观察到当前统计量或更极端结果的概率。当 p 值低于预先设定的显著性水平 (通常为 0.05)时,研究者拒绝零假设,称结果"统计显著"。
然而,p 值本身存在严重局限:
- p 值不是零假设为真的概率,也不能直接度量效应的大小。
- p 值对大样本极其敏感——在样本量足够大时,哪怕实质意义微乎其微的效应也会变得统计显著。
- p 值的二分法(显著/不显著)人为制造了研究的可发表性门槛,导致文件抽屉问题(file-drawer problem)和发表偏倚。
效应量与置信区间
效应量(effect size)度量的是效应的实际大小,而非仅仅是"是否存在效应"。常见的效应量指标包括科恩的 d(标准化均值差)、偏 以及回归系数本身。美国统计协会(ASA)在 2016 年的声明中明确建议研究者报告效应量和置信区间,而非仅依赖 p 值。
置信区间(confidence interval)给出了参数估计的不确定性范围:在重复抽样下,按相同方法构造的区间中有 的比例包含真实参数值。置信区间比单纯的 p 值提供了更丰富的信息——它能同时反映效应的大小、方向和精度,使读者能够评估统计证据的实际意义。
统计显著与经济显著
统计显著不等同于经济显著。一个工资效应的点估计为 0.01\%,即使因样本量巨大而高度统计显著,在经济政策讨论中也几乎没有任何实际价值。反之,一个点估计虽大但标准误过宽的效应可能极具经济意义,却因数据不足而未能通过显著性检验。区分两者是正确解读统计证据的关键。
统计证据的可靠性挑战
近年来,经济学经历了一场可信性革命(credibility revolution),对统计证据的质量提出了更高要求:
- p 值操纵与 p-hacking:研究者可能通过选择性报告、数据挖掘、变量变换和子样本分析等方式,人为地压低 p 值以通过显著性门槛。这严重扭曲了统计证据的可信度。
- 多重比较问题:当同时检验多个假设时,即使所有零假设均为真,单纯因偶然获得显著结果的概率也会大幅上升。邦费罗尼校正(Bonferroni correction)和错误发现率(FDR)控制是常用的应对方法。
- 发表偏倚:学术期刊偏好发表显著结果,使文献中的统计证据系统性高估了真实效应。元分析(meta-analysis)中的漏斗图不对称性是检测发表偏倚的常用工具。
- 复制危机:近年来多个学科的复制研究揭示了大量已发表结果无法被独立重现的现象。经济学已开始推动预注册(pre-registration)、预分析计划(PAP)和结果-blind 评审等制度改革。
贝叶斯视角下的统计证据
频率学派将参数视为固定未知常数,概率只描述数据的随机性;而贝叶斯统计将参数也视为随机变量,用先验分布表达研究者的先验信念,通过贝叶斯定理结合数据得到后验分布。在这种框架下,统计证据体现为后验概率或贝叶斯因子(Bayes factor)——后者直接比较两个模型或假设相对数据证据的强度,且不受样本量和停止规则的影响,在哲学上比 p 值更符合证据的直觉定义。
统计证据在政策评估中的应用
政策制定者依赖统计证据来回答诸如"最低工资是否降低了就业?""教育补贴是否提高了入学率?"等因果问题。现代政策评估的金标准是随机对照试验(RCT),但实践中大量依赖准实验方法:双重差分(DiD)、断点回归设计(RDD)、工具变量(IV)和倾向得分匹配(PSM)等。每种方法产生的统计证据都有特定的识别假设和局限性,严格的稳健性检验和安慰剂检验已成为评估此类证据可信度的标准程序。