ARTICLE

I型错误

I型错误 (Type I Error, ) I型错误 (Type I Error)，又称错误或弃真错误，是统计假设检验框架中与 II型错误并列的两类决策错误之一。它指当零假设 (H_0) 实际上为真时，检验却拒绝了 H_0——即"错误地推翻了一个正确的原假设"。通俗地说，I型错误是"误报"（false positive）：研究者声称发现了真实存

浏览 4 更新 2025-11-01

I型错误 (Type I Error, $\alpha$ )

I型错误 (Type I Error)，又称 $\alpha$ 错误 或 弃真错误，是统计假设检验框架中与 II型错误并列的两类决策错误之一。它指当零假设 ( $H_0$ ) 实际上为真时，检验却拒绝了 $H_0$ ——即"错误地推翻了一个正确的原假设"。通俗地说，I型错误是"误报"（false positive）：研究者声称发现了真实存在的效应或差异，但实际上并不存在。

假设检验决策矩阵中的位置

在假设检验的四种可能决策结果中，I型错误占据如下位置（行=决策，列=真相）：

\begin{tabular}{c|c|c} \& $H_0$ 为真 \& $H_0$ 为假 \\ \hline 不拒绝 $H_0$ \& 正确（概率 $1-\alpha$ ） \& II型错误（概率 $\beta$ ） \\ \hline 拒绝 $H_0$ \& I型错误（概率 $\alpha$ ） \& 正确（统计功效 $1-\beta$ ） \\ \end{tabular}

犯I型错误的概率记为 $\alpha$ ，即研究者预设的 显著性水平 (Significance Level)。在经典频率学派框架中， $\alpha$ 是检验之前人为设定的阈值，代表研究者愿意承担的最大I型错误风险。

显著性水平 $\alpha$ 的选择与含义

显著性水平通常取 $\alpha = 0.05$ 、 $0.01$ 或 $0.10$ 。 $\alpha = 0.05$ 的含义是：如果原假设确实为真，重复抽样检验 100 次，平均而言会有 5 次错误地拒绝原假设。研究者通过控制 $\alpha$ 来管理虚假发现的风险。

选择 $\alpha$ 的惯例因学科而异。在需要严格证据的领域（如药物临床试验、法医学），通常采用更保守的 $\alpha = 0.01$ 甚至 $\alpha = 0.001$ ，以最大限度地降低错误宣告疗效或定罪的概率。在探索性社会科学研究中， $\alpha = 0.05$ 是广泛接受的惯例。

影响 I 型错误的因素

与II型错误不同，I型错误概率 $\alpha$ 是研究者直接选定的参数，原则上不受样本量或效应量的直接影响——只要原假设为真且所有假设条件成立，无论样本多大，检验的I型错误率严格等于 $\alpha$ 。这正是频率学派检验被称为"水平检验"的原因：检验的"大小" (size) 被控制在预设的 $\alpha$ 之下。

然而，在实际应用中存在多个使实际I型错误率偏离名义水平 $\alpha$ 的因素：

多重比较。当研究者同时进行多个假设检验时，每个检验的I型错误概率独立累加，导致整体犯至少一次错误拒绝的概率（家庭wise错误率, FWER）远高于单个 $\alpha$ 。例如，同时进行 20 个独立检验，在 $\alpha = 0.05$ 下至少出现一次虚假发现的概率为 $1 - (0.95)^{20} \approx 64\%$ 。对此，Bonferroni校正、Holm-Bonferroni校正及错误发现率 (FDR) 控制等方法是常用的修正手段。

假设条件违背。如果检验所依赖的正态性、独立性或同方差性假定被违反，实际I型错误率可能显著偏离名义 $\alpha$ 。例如，使用标准 $t$ 检验处理方差异常的非正态数据时，实际I型错误率可能远高于 0.05。稳健标准误和置换检验是缓解此问题的常用方法。

p-Hacking 与发表偏倚。研究者有意或无意地通过逐步增删变量、变换模型规格、选择性报告显著结果等做法操纵 $p$ 值，使实际I型错误率远超报告的名义水平。这是当前可重复性危机的制度性根源之一。

与第二类错误的权衡

I型错误与 II型错误之间存在经典权衡：在样本量固定的前提下，降低 $\alpha$ 会收缩拒绝域，减少弃真错误，但同时也降低了检验的统计功效，从而增加取伪错误 ( $\beta$ )。

这种权衡在决策中的体现：在刑事审判场景中，若将"无罪推定"原则极端化（极小的 $\alpha$ ），则几乎不可能冤枉好人，但大量罪犯将被无罪释放（巨大的 $\beta$ ）。反之，若降低证明标准（抬高 $\alpha$ ），虽能捕获更多真凶，却也增加了冤假错案的风险。统计学中，这一权衡没有单一最优解，必须依据两类错误的相对社会代价来判断。

在经济学和计量经济学中，这一权衡直接体现在政策评估的"检出灵敏度"设置上。例如在微观经济计量学的因果推断中，研究者需决定：是更担心把无效果的政策判为有效（I型错误），还是更担心把有效政策判为无效（II型错误）。前者导致资源浪费与公共资金错配，后者导致有益政策被弃用。

p 值、统计显著性与 I 型错误

p 值是统计假设检验的基石概念。在给定数据下， $p$ 值定义为"在原假设为真的条件下，观测到当前结果及更极端结果的概率"。当 $p < \alpha$ 时，检验拒绝 $H_0$ 。因此，对于坚持严格版 Neyman-Pearson 范式的研究者，只要在检验前固定 $\alpha$ ，就能将I型错误概率精确控制在预设水平。

然而，实践中普遍存在将 $p$ 值误解为" $H_0$ 为真的概率"或"效应存在的置信度"的错误。这种误解夸大了单次检验的推断力，并低估了I型错误的实际发生率。美国统计学会 (ASA) 2016 年关于 $p$ 值的声明明确指出： $p$ 值本身不是对假设为真概率的度量，也不应作为科学结论的唯一依据。

多假设世界中的I型错误

在大数据时代，海量检验场景使I型错误管理成为前所未有的挑战。在基因组关联研究 (GWAS) 中，研究者同时对数百万个基因位点进行检验，必须使用极严格的多重比较校正手段（如将显著性阈值设为 $5 \times 10^{-8}$ ）来避免 $10^6$ 级别检验中的海量虚假发现。

在金融经济学中，因子动物园 (Factor Zoo) 现象的背后同样涉及多重检验问题：研究者挖掘数百个潜在的市场异象因子并逐一检验其统计显著性，若不进行校正，其中大量"显著"因子实际上只是I型错误导致的虚假发现。Harvey, Liu \& Zhu (2016) 基于多重比较视角建议将金融因子发现的显著性阈值提高至 $t$ -统计量绝对值大于 3.0（对应单检验 $\alpha \approx 0.0027$ ），以筛选出真正有预测力的因子。

总结

I型错误是统计推断中不可回避的基本风险。 $\alpha$ 作为其量化度量，既是频率学派假设检验的核心控制参数，也是科学实践中结论可靠性的重要保障。正确理解I型错误的内涵、与II型错误的权衡关系、以及在多重比较和数据挖掘背景下的膨胀风险，是每个应用研究者必备的统计素养。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。