ARTICLE

Type I error|第一类错误率

第一类错误 (Type I Error) 第一类错误（Type I Error），又称弃真错误或假阳性（False Positive），是统计假设检验中最为基础的概念之一。在假设检验的框架中，研究者设定一个零假设（Null Hypothesis, 公式）和一个备择假设（Alternative Hypothesis, 公式），并基于样本数据决定是否拒绝公

浏览 0 更新 2025-10-26

第一类错误 (Type I Error)

第一类错误（Type I Error），又称弃真错误或假阳性（False Positive），是统计假设检验中最为基础的概念之一。在假设检验的框架中，研究者设定一个零假设（Null Hypothesis, $H_0$ ）和一个备择假设（Alternative Hypothesis, $H_1$ ），并基于样本数据决定是否拒绝 $H_0$ 。第一类错误发生的情形为： $H_0$ 事实上为真，但检验结果却错误地拒绝了它。换言之，研究者"看到了并不存在的效应"——将随机噪声误判为有统计意义的信号。

正式定义与显著性水平

记检验统计量落入拒绝域的事件为 $R$ ，则第一类错误的概率定义为条件概率：

\alpha = P(R \mid H_0 \text{ 为真})

这个概率正是我们在每一次假设检验中预设的显著性水平（Significance Level），通常记为 $\alpha$ 。在经验研究的惯例中，研究者普遍将 $\alpha$ 设定为 0.05（5\%）、0.01（1\%）或 0.10（10\%），其中 5\% 最为常见。选择 $\alpha = 0.05$ 意味着研究者愿意接受"在 $H_0$ 为真时仍有 5\% 的概率错误地拒绝它"这一风险。

形式上，假设检验统计量 $T$ 在 $H_0$ 下的分布已知，拒绝域 $R_\alpha$ 满足：

P(T \in R_\alpha \mid H_0) = \alpha

当观察到的 $T_{\text{obs}} \in R_\alpha$ 时，我们拒绝 $H_0$ ，并以"在 $\alpha$ 水平上统计显著"表述结果。

与第一类错误对应的是第二类错误（Type II Error），即 $H_0$ 为假但未能拒绝——"漏报"真实效应。第二类错误的概率记为 $\beta$ ，而 $1-\beta$ 则为检验的统计功效（Statistical Power）。

奈曼—皮尔逊框架中的不对称性

第一类错误的核心地位源于奈曼—皮尔逊引理（Neyman--Pearson Lemma）所确立的不对称哲学。在 Neyman--Pearson 框架中，研究者首先固定第一类错误的概率上限 $\alpha$ ，然后在此约束下寻求最小化第二类错误（即最大化功效）的检验程序。这一"先控 $\alpha$ 、再极小化 $\beta$ "的设计反映了一种认识论上的审慎立场：在科学推理中，错误地宣称发现了一个不存在的效应（第一类错误）通常被认为比未能检测到真实存在的效应（第二类错误）更为严重。

这种不对称根植于科学的自我修正机制。一个被错误"发现"的效应可能引发后续研究者在错误方向上投入大量资源，污染文献，甚至进入教科书——其纠正成本远高于一次未能检测到真实效应的失败。Fisher 本人在其经典著作中亦强调，零假设应被视为"待证伪的对象"，除非有足够强的证据推翻它，否则应维持其成立。显著性检验的逻辑本质上是"反证法"式的：在假定 $H_0$ 为真的前提下，若观察到的数据极其不可能（ $p < \alpha$ ），则对 $H_0$ 产生怀疑。

p 值与第一类错误率的关系

p 值是假设检验中与第一类错误率直接相连的操作性指标。p 值定义为：在 $H_0$ 为真的条件下，观察到当前统计量或更极端结果的概率。决策规则为：

\text{若 } p \leq \alpha \text{，则拒绝 } H_0

此规则保证了长期第一类错误率不超过 $\alpha$ 。然而，p 值并非" $H_0$ 为真的概率"——这是一个广泛存在的误解。p 值以 $H_0$ 为条件，而研究者真正关心的往往是 $P(H_0 \mid \text{数据})$ ，两者的关系通过贝叶斯定理连接，且取决于先验概率 $P(H_0)$ 和检验的功效。当先验概率 $P(H_0)$ 很高（即大多数被检验的假说本身为真）且功效有限时，即便 $p < 0.05$ ， $H_0$ 实际为真的后验概率依然可能很高——这是所谓" $\textbf{p 值误用危机}$ "的数学根源之一。

多重检验与第一类错误膨胀

当研究者同时进行 $m$ 次独立假设检验时，即便每一次检验的第一类错误率严格控制在 $\alpha$ ，至少出现一次第一类错误的族系误差率（Family-Wise Error Rate, FWER）将急剧膨胀：

\text{FWER} = 1 - (1 - \alpha)^m

例如，当 $\alpha = 0.05$ 且 $m = 20$ 时，FWER $\approx 0.64$ ——研究者在 20 次检验中几乎有 64\% 的概率至少错误地"发现"一个显著结果。这一问题在基因组学、神经影像学和金融数据挖掘中尤为突出，因为这些领域往往涉及成千上万次并行检验。

控制多重比较的第一类错误有若干经典方法。Bonferroni 校正将每次检验的显著性水平调整为 $\alpha / m$ ，从而将 FWER 控制在 $\alpha$ 以内——代价是功效显著下降。Šidák 校正为 $1-(1-\alpha)^{1/m}$ ，在检验独立时比 Bonferroni 略微宽松。更近期的发展是错误发现率（False Discovery Rate, FDR）框架，由Benjamini与Hochberg于 1995 年提出。FDR 控制的是所有被拒绝的假设中第一类错误比例的期望值，而非"至少一次"的 FWER，在允许少量第一类错误的前提下大幅提升了功效，成为大规模多重检验中的主流方法。

经济学与计量经济学中的应用

在计量经济学的实证研究中，第一类错误的控制贯穿于研究设计的全流程。

回归分析中的显著性检验：研究者用 $t$ 检验判断单个系数是否为零，用 $F$ 检验判断多个系数的联合显著性。在这些检验中， $\alpha = 0.05$ 是默认选择，但近年来的"p-hacking"争议促使学界反思这一惯例。p-hacking 指研究者有意或无意地通过数据筛选、变量变换、样本裁剪等方式搜索显著结果——其本质是一种系统性地提高第一类错误率的研究行为。

政策评估：在随机对照试验（RCT）、双重差分（Difference-in-Differences）和断点回归设计中，第一类错误可能使政策制定者误认为某项干预有效而予以推广。由于政策评估的结果直接影响公共资源配置，部分学者主张在政策研究中采用更为保守的 $\alpha$ （如 0.01 甚至 0.005），以降低假阳性政策结论的社会成本。

预注册与规范：为遏制第一类错误率的隐形膨胀，经济学中的预注册（Pre-registration）和预分析计划（Pre-analysis Plan）日益普及。通过在数据收集和分析之前预先声明假设、检验方法和样本规则，研究者限制了事后灵活调整的自由度，从而使名义 $\alpha$ 与实际的长期第一类错误率恢复对齐。

与贝叶斯框架的对比

贝叶斯统计提供了一个不需要显式控制第一类错误率的替代框架。在贝叶斯假设检验中，研究者直接计算两个假设的后验概率比（贝叶斯因子），决策基于后验 odds 而非预设的 $\alpha$ 阈值。贝叶斯框架的支持者认为，它避免了 Neyman--Pearson 框架中对"固定 $\alpha$ "的刻板依赖，并使决策自然地取决于效应大小的先验分布和检验的全部证据——而非仅凭一个二分化的"显著/不显著"标签。然而，贝叶斯方法引入了先验选择的主观性，在经济学经验研究的现行规范中，频率学派的假设检验——及其隐含的第一类错误控制——仍然是主流范式。

总结

第一类错误是统计推断的逻辑基石。它定义了科学论断的严谨性边界：在何种程度上我们愿意容忍"声称发现实则虚无"的风险。从 Neyman--Pearson 的不对称设计到现代多重检验校正，从 Fisher 的显著性检验到 p-hacking 的反思，第一类错误的控制已从纯技术问题演化为科学方法论的核心议题。在"可复制性危机"的背景下，理解第一类错误的真实含义——它并非抽象的概率阈值，而是对研究者行为和研究结论可靠性的实质性约束——变得比以往任何时候都更加重要。正如Box所言："所有模型都是错的，但有些是有用的。"类似地，所有的假设检验都面临第一类错误的风险，科学的进步不在于消除这一风险，而在于以透明、审慎的方式管理它。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。