ARTICLE

证据

证据 (Evidence) 证据 (Evidence) 在统计学与计量经济学中，是指数据相对于某个假说或模型的支撑程度。它不是绝对的真值判断，而是对"数据在多大程度上支持某一命题"的量化表达。证据的概念贯穿于假设检验、模型选择、贝叶斯推断等多个核心领域，是现代统计决策理论的基石。证据的两种范式统计学中对证据的形式化处理主要沿着两条路径展开：一、频率学派

浏览 5 更新 2025-10-27

证据 (Evidence)

证据 (Evidence) 在统计学与计量经济学中，是指数据相对于某个假说或模型的支撑程度。它不是绝对的真值判断，而是对"数据在多大程度上支持某一命题"的量化表达。证据的概念贯穿于假设检验、模型选择、贝叶斯推断等多个核心领域，是现代统计决策理论的基石。

证据的两种范式

统计学中对证据的形式化处理主要沿着两条路径展开：

一、频率学派：以P值为核心

频率学派将证据理解为"在零假设成立的重复抽样中，观察到当前结果或更极端结果的概率"，即P值 (P-value)。P值越小，意味着数据与零假设的兼容性越低，构成反对零假设的证据。Fisher 将 P 值视为一种非形式化的证据测度：P < 0.05 被视为"有证据反对零假设"，P < 0.01 则为"强证据"。

然而，P值存在多重局限性：它依赖于样本量和效应大小；不能直接给出零假设为真的概率；易受停止规则的影响；且在实践中常被机械地二分为"显著/不显著"，导致证据的连续本质被掩盖。为此，美国统计协会 (ASA) 于 2016 年专门发布声明，警告 P 值的误用。

二、贝叶斯学派：以贝叶斯因子为核心

贝叶斯框架下，证据通过贝叶斯因子 (Bayes Factor, BF) 来度量。贝叶斯因子定义为在两个竞争模型（或假设）下观测数据的边际似然之比：

BF_{01} = \frac{P(\text{Data} \mid H_0)}{P(\text{Data} \mid H_1)}

当 $BF_{01} > 1$ 时，数据更支持 $H_0$ ；当 $BF_{01} < 1$ 时，数据更支持 $H_1$ 。贝叶斯因子的核心优势在于：它直接比较两个模型的预测能力，而不依赖于特定显著性水平；它可以自然地累积证据（新数据到来后，后验赔率更新为：先验赔率 × 贝叶斯因子）；且它在直觉上对应"数据使我们对假设的信念改变了多少"。

证据强度的分级

Jeffreys (1961) 以及 Kass 与 Raftery (1995) 给出了基于贝叶斯因子的证据强度分级标准（以 $2 \ln BF_{10}$ 或 $BF_{10}$ 本身为参考）：

$1 < BF_{10} \leq 3$ ：微弱证据 (anecdotal / barely worth mentioning)
$3 < BF_{10} \leq 20$ ：中等强度证据 (positive / substantial)
$20 < BF_{10} \leq 150$ ：强证据 (strong)
$BF_{10} > 150$ ：极强证据 (very strong / decisive)

这一分级比 P 值的机械化阈值（如 0.05）更细致地刻画了证据的连续谱系。

证据与决策

证据本身不等同于决策。在统计决策理论中，决策还需考虑损失函数 (Loss Function) 和先验信息。例如，在医疗诊断中，即便是中等强度的证据，若错误决策的代价极高（如漏诊致命疾病），也可能触发行动；而强证据若对应的决策成本极高，也可能不足以行动。因此，证据是决策的必要但非充分条件。

似然比与证据

在频率学派中，似然比检验 (Likelihood Ratio Test, LRT) 直接使用两种假设下似然函数的比值来构建检验统计量。似然比本身就是一种证据度量：它衡量在参数空间的不同区域，数据的相对似然性。广义似然比检验统计量

\Lambda = -2 \ln \left( \frac{\sup_{\theta \in \Theta_0} L(\theta)}{\sup_{\theta \in \Theta} L(\theta)} \right)

在大样本下近似服从卡方分布，从而将证据转化为概率陈述。AIC、BIC 等信息准则也可视为对模型证据的近似，其中 BIC 在一定条件下近似于贝叶斯因子的对数形式。

证据的累积与可重复性

科学的可重复性危机部分源于对证据的错误理解。单一研究的显著 P 值不等于确凿证据；真正可靠的证据来自多次独立研究的荟萃分析 (Meta-Analysis) 和证据综合。在贝叶斯框架中，证据的累积是自然的：每一次新的实验都在更新后验分布；而在频率学派中，多个研究的证据合并需要专门的综合方法（如 Fisher 方法、Stouffer 方法）。

与其他概念的关系

证据概念与多个核心统计概念紧密相关：假设检验将证据转化为拒绝/不拒绝的二元决策；置信区间提供了与数据兼容的参数范围，区间宽度反映了证据的精确度；功效 (Power) 衡量了在特定效应大小下获取证据的能力；信息准则 (AIC, BIC) 基于信息损失对模型进行证据排序；贝叶斯更新则刻画了证据如何动态改变信念。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。