ARTICLE
证据
证据 (Evidence) 证据 (Evidence) 在统计学与计量经济学中,是指数据相对于某个假说或模型的支撑程度。它不是绝对的真值判断,而是对"数据在多大程度上支持某一命题"的量化表达。证据的概念贯穿于假设检验、模型选择、贝叶斯推断等多个核心领域,是现代统计决策理论的基石。 证据的两种范式 统计学中对证据的形式化处理主要沿着两条路径展开: 一、频率学派
证据 (Evidence)
证据 (Evidence) 在统计学与计量经济学中,是指数据相对于某个假说或模型的支撑程度。它不是绝对的真值判断,而是对"数据在多大程度上支持某一命题"的量化表达。证据的概念贯穿于假设检验、模型选择、贝叶斯推断等多个核心领域,是现代统计决策理论的基石。
证据的两种范式
统计学中对证据的形式化处理主要沿着两条路径展开:
一、频率学派:以P值为核心
频率学派将证据理解为"在零假设成立的重复抽样中,观察到当前结果或更极端结果的概率",即P值 (P-value)。P值越小,意味着数据与零假设的兼容性越低,构成反对零假设的证据。Fisher 将 P 值视为一种非形式化的证据测度:P < 0.05 被视为"有证据反对零假设",P < 0.01 则为"强证据"。
然而,P值存在多重局限性:它依赖于样本量和效应大小;不能直接给出零假设为真的概率;易受停止规则的影响;且在实践中常被机械地二分为"显著/不显著",导致证据的连续本质被掩盖。为此,美国统计协会 (ASA) 于 2016 年专门发布声明,警告 P 值的误用。
二、贝叶斯学派:以贝叶斯因子为核心
贝叶斯框架下,证据通过贝叶斯因子 (Bayes Factor, BF) 来度量。贝叶斯因子定义为在两个竞争模型(或假设)下观测数据的边际似然之比:
当 时,数据更支持 ;当 时,数据更支持 。贝叶斯因子的核心优势在于:它直接比较两个模型的预测能力,而不依赖于特定显著性水平;它可以自然地累积证据(新数据到来后,后验赔率更新为:先验赔率 × 贝叶斯因子);且它在直觉上对应"数据使我们对假设的信念改变了多少"。
证据强度的分级
Jeffreys (1961) 以及 Kass 与 Raftery (1995) 给出了基于贝叶斯因子的证据强度分级标准(以 或 本身为参考):
- :微弱证据 (anecdotal / barely worth mentioning)
- :中等强度证据 (positive / substantial)
- :强证据 (strong)
- :极强证据 (very strong / decisive)
这一分级比 P 值的机械化阈值(如 0.05)更细致地刻画了证据的连续谱系。
证据与决策
证据本身不等同于决策。在统计决策理论中,决策还需考虑损失函数 (Loss Function) 和先验信息。例如,在医疗诊断中,即便是中等强度的证据,若错误决策的代价极高(如漏诊致命疾病),也可能触发行动;而强证据若对应的决策成本极高,也可能不足以行动。因此,证据是决策的必要但非充分条件。
似然比与证据
在频率学派中,似然比检验 (Likelihood Ratio Test, LRT) 直接使用两种假设下似然函数的比值来构建检验统计量。似然比本身就是一种证据度量:它衡量在参数空间的不同区域,数据的相对似然性。广义似然比检验统计量
在大样本下近似服从卡方分布,从而将证据转化为概率陈述。AIC、BIC 等信息准则也可视为对模型证据的近似,其中 BIC 在一定条件下近似于贝叶斯因子的对数形式。
证据的累积与可重复性
科学的可重复性危机部分源于对证据的错误理解。单一研究的显著 P 值不等于确凿证据;真正可靠的证据来自多次独立研究的荟萃分析 (Meta-Analysis) 和证据综合。在贝叶斯框架中,证据的累积是自然的:每一次新的实验都在更新后验分布;而在频率学派中,多个研究的证据合并需要专门的综合方法(如 Fisher 方法、Stouffer 方法)。
与其他概念的关系
证据概念与多个核心统计概念紧密相关:假设检验将证据转化为拒绝/不拒绝的二元决策;置信区间提供了与数据兼容的参数范围,区间宽度反映了证据的精确度;功效 (Power) 衡量了在特定效应大小下获取证据的能力;信息准则 (AIC, BIC) 基于信息损失对模型进行证据排序;贝叶斯更新则刻画了证据如何动态改变信念。