ARTICLE

类型二错误

类型二错误 (Type II Error, 公式 ) 类型二错误 (Type II Error)，又称公式错误、取伪错误或第二类错误，是统计假设检验理论中与第一类错误并列的两类根本性决策错误之一。它特指当零假设 ( 公式 ) 在现实中为假时，检验统计量却落在接受域内，导致研究者未能拒绝错误的公式的情形。通俗语言中，类型二错误对应"漏报"

浏览 4 更新 2025-11-15

类型二错误 (Type II Error, $\beta$ )

类型二错误 (Type II Error)，又称 $\beta$ 错误、取伪错误 或 第二类错误，是统计假设检验理论中与第一类错误并列的两类根本性决策错误之一。它特指当零假设 ( $H_0$ ) 在现实中为假时，检验统计量却落在接受域内，导致研究者未能拒绝错误的 $H_0$ 的情形。通俗语言中，类型二错误对应"漏报"（false negative）：真实存在的效应、差异或关联未被检测出来。在更广泛的科学哲学视角下，类型二错误反映了"错过真理"的认知风险——它是统计学中不确定性的基本维度之一，任何有限样本的推断都无法完全规避。

决策矩阵中的位置

在假设检验的四种可能结果中，类型二错误占据以下位置（行=研究者决策，列=客观真相）：

公式暂不可显示

类型二错误的概率记为 $\beta$ ，其补数 $1-\beta$ 即为检验的 统计功效 (Statistical Power)——当备择假设为真时正确拒绝 $H_0$ 的能力。高功效意味着低类型二错误风险，功效分析正是围绕 $1-\beta$ 的最小可接受水平（通常为 0.80）来设计实验的。内曼-皮尔逊引理从理论上证明，在给定 $\alpha$ 的条件下，似然比检验能使 $\beta$ 最小化，从而为最优检验的构造提供了理论基础。

影响 $\beta$ 的因素

类型二错误概率并非固定不变的常数，而是由以下四个关键因素共同决定：

效应量 (Effect Size)。真实效应越大，样本分布与零假设下的分布重叠越少，类型二错误概率越低。以临床试验为例，若新药能使血压平均下降 20 mmHg（大效应），则几乎任何合理规模的实验都能检测到；若仅下降 1 mmHg（微效应），则需要极大样本才能避免漏报。科恩的 d 等标准化效应量指标正是为此而设计。

样本量 ( $n$ )。样本量增大使得抽样标准误减小，统计量的抽样分布更加集中，从而降低了 $\beta$ 。这是功效分析和样本量计算的核心逻辑：研究者需要根据预期的效应量和目标功效，反推所需的最小样本量。在资源有限的应用研究中，这往往是实验设计阶段最受关注的权衡。

显著性水平 ( $\alpha$ )。降低 $\alpha$ （即收紧拒绝标准）使临界值向分布尾部移动，拒绝域变小，这虽然减少了第一类错误，却同时也减少了正确拒绝 $H_0$ 的机会，从而抬高 $\beta$ 。这一反向关系是两类错误之间经典权衡 (trade-off) 的直接数学表现。

检验方向与变异性。单侧检验比双侧检验具有更高的功效（更低的 $\beta$ ），因为其拒绝域全部集中在参数偏离的单一方向上。此外，总体方差 $\sigma^2$ 越大，数据噪声越强， $\beta$ 也越大——这正是为什么在异质性高的群体中进行检验需要更大样本量的原因。

与第一类错误的经典权衡

类型二错误与第一类错误之间存在根本性的此消彼长：在固定样本量下，降低 $\alpha$ 必然抬高 $\beta$ ，反之亦然。这种权衡迫使研究者在实验设计阶段就必须根据两类错误的相对代价做出选择。

在药品安全性评估中，第一类错误（错误地批准一种无效甚至有害的药物）的社会代价极其高昂，因此监管机构通常要求极小的 $\alpha$ （如 0.01），愿意接受较高的 $\beta$ 。而在探索性社会科学研究中，错过一个真实效应（类型二错误）可能导致有价值的研究方向被放弃，代价可能更大，研究者因此可能接受较高的 $\alpha$ （如 0.10）以维持足够功效。约尔·科恩在 1962 年首次指出，行为科学中的许多研究由于样本量不足，功效远低于 0.80，这意味着大量真实效应因类型二错误而未被发现——这一发现推动了功效分析在心理学、医学和经济学中的普及。

打破这一权衡的唯一可靠途径是 增大样本量：当 $n$ 足够大时，可以同时降低 $\alpha$ 和 $\beta$ 。在当代的大数据研究中，百万级样本使得两类错误风险均可控制在极低水平，但需要注意"统计显著性"与"实际显著性"的区分——大样本下即使微小的效应也能产生显著的 $p$ 值，这时类型二错误虽小，但效应量本身可能缺乏实际意义。

经济学与计量经济学中的实例

在计量经济学中，类型二错误直接影响政策评估和因果推断。考虑一项劳动经济学中的职业培训项目效果评估，设定 $H_0: \beta_{\text{training}} = 0$ （培训对就业无影响）。若培训确实使就业率提升了 5 个百分点，但由于样本量过小或就业数据的测量误差过大，检验未能拒绝 $H_0$ ，便犯了类型二错误——研究者可能错误地得出"培训无效"的结论，导致一个有价值的政策被放弃。这正是为什么随机对照试验在政策评估中日益受到重视：通过精心设计保证足够功效，降低类型二错误风险。

在有效市场假说的实证检验中，类型二错误表现为未能检测到真实的市场异常 (anomalies)，如动量效应或规模效应。在格兰杰因果检验中，若变量 X 确实在预测意义上 Granger 引起 Y，但检验不显著，则漏报了真实的因果关系。这些场景的共同方法论教训是：不拒绝 $H_0$ 不等于接受 $H_0$ ，低功效的检验可能仅仅因为样本不足而掩盖了真实效应。因此，现代经济学论文在报告回归结果时，通常同时报告置信区间和功效分析，而非仅依赖单一的"显著/不显著"二分判断。

功效分析中的实际计算

给定显著性水平 $\alpha$ 、样本量 $n$ 、总体标准差 $\sigma$ 和预期效应量 $\delta = \mu_1 - \mu_0$ ，类型二错误概率 $\beta$ 可通过非中心分布精确计算。以单样本双侧 $z$ 检验 $H_0: \mu = \mu_0$ 对 $H_1: \mu \neq \mu_0$ 为例，当真值 $\mu = \mu_0 + \delta$ 时：

\beta = \Phi\left(z_{\alpha/2} - \frac{\delta\sqrt{n}}{\sigma}\right) - \Phi\left(-z_{\alpha/2} - \frac{\delta\sqrt{n}}{\sigma}\right)

其中 $\Phi$ 为标准正态累积分布函数， $z_{\alpha/2}$ 为双侧临界值。该公式直观展示了 $\beta$ 随 $n$ 和 $|\delta|$ 增大而递减、随 $\alpha$ 减小而递增的数量关系。对于常见的 $t$ 检验、 $F$ 检验和卡方检验，功效计算需要使用非中心 $t$ 分布、非中心 $F$ 分布或非中心卡方分布。在应用研究实践中，研究者广泛使用 $G^*Power$ 、R 语言的 \texttt{pwr} 包或 Stata 的 \texttt{sampsi} 命令，在实验设计阶段预先计算所需样本量，确保功效 $1-\beta$ 达到 0.80 这一惯例阈值。近年来，贝叶斯统计视角下的类型二错误分析也日益受到关注，Bayesian 方法通过后验概率直接量化"错过真实效应"的不确定性，为传统频率学派的功效分析提供了有益的补充视角。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

类型二错误