ARTICLE

拒绝原假设

拒绝原假设拒绝原假设（Rejecting the Null Hypothesis）是假设检验中的核心决策环节，指根据样本数据提供的证据，在给定的显著性水平下否定关于总体参数的初始假定 H_0 ，转而倾向于备择假设 H_1 （或 H_a ）。这一决策并不等同于证明原假设为假，而是表明观测数据与 H_0 的预测之间存在足够显著的差异，使得该差异难以单纯用随机抽

浏览 4 更新 2025-10-26

拒绝原假设

拒绝原假设（Rejecting the Null Hypothesis）是假设检验中的核心决策环节，指根据样本数据提供的证据，在给定的显著性水平下否定关于总体参数的初始假定 $H_0$ ，转而倾向于备择假设 $H_1$ （或 $H_a$ ）。这一决策并不等同于证明原假设为假，而是表明观测数据与 $H_0$ 的预测之间存在足够显著的差异，使得该差异难以单纯用随机抽样误差来解释。拒绝原假设是统计推断中最具实际意义的操作之一，它为研究者从数据中发现规律、验证理论预测提供了正式的分析框架。

决策机制

假设检验的决策依据是检验统计量的观测值是否落入拒绝域（critical region / rejection region）。拒绝域由显著性水平 $\alpha$ 决定，位于抽样分布的一侧或两侧尾部区域。当检验统计量的p值小于预先设定的 $\alpha$ 时，等价于统计量落入拒绝域，此时研究者做出拒绝 $H_0$ 的决策。反之，若 $p$ 值大于或等于 $\alpha$ ，则不能拒绝 $H_0$ ——这一表述在统计推断中极为重要：不拒绝 $H_0$ 并不等同于接受 $H_0$ ，仅表明当前样本数据尚不足以推翻原假设，二者存在本质区别。这种不对称性源于假设检验的逻辑结构：原假设在获得充分的反面证据之前被暂时维持，类似于法律上的"无罪推定"原则。

常用的显著性水平为 $\alpha = 0.05$ 或 $\alpha = 0.01$ 。以 $z$ 检验为例，在双侧检验中，若计算得到的 $p$ 值小于 $0.05$ ，则拒绝 $H_0$ ，认为在 $5\%$ 的显著性水平下存在统计显著的效应。拒绝域的边界值称为临界值（critical value），其具体数值取决于 $\alpha$ 的大小、检验的方向（单侧左尾、单侧右尾或双侧）以及检验统计量所服从的分布类型（标准正态分布 $z$ 、t分布、F分布或χ²分布等）。例如，在 $\alpha = 0.05$ 的双侧 $z$ 检验中，临界值为 $\pm 1.96$ ；而在 $\alpha = 0.01$ 的双侧 $z$ 检验中，临界值为 $\pm 2.58$ 。

两类错误与权衡

拒绝 $H_0$ 的决策可能正确，也可能犯错。若 $H_0$ 在现实中实际上为真却被错误地拒绝，则犯第I类错误（Type I Error），其发生概率正是研究者设定的显著性水平 $\alpha$ 。若 $H_0$ 实际上为假却被保留（即未能拒绝 $H_0$ ），则犯第II类错误（Type II Error），其概率记为 $\beta$ 。检验的检验势（power of a test）定义为 $1 - \beta$ ，它衡量检验正确拒绝假原假设的能力。势不仅取决于 $\alpha$ 和样本量 $n$ ，还取决于真实效应量的大小——真实效应越大，检验越容易将其检测出来，势也就越高。

在样本量固定不变的前提下， $\alpha$ 与 $\beta$ 之间存在此消彼长的权衡关系——设定更为严格的 $\alpha$ （如从 $0.05$ 降至 $0.01$ ）虽然能够降低第 I 类错误的风险，但会使拒绝域变窄，从而增大第 II 类错误的概率并降低检验势。增大样本量 $n$ 是同时降低两类错误概率的有效途径，因为更大的样本量能缩小标准误，使检验统计量对真实效应更加敏感，从而提高检验的灵敏度。

研究者需要根据具体研究背景权衡两类错误的后果。在药物安全性检验、临床试验等关乎公共安全的场景中，宁可严格控制第 I 类错误（避免错误地宣布一种无效甚至有害的药物安全有效）；而在探索性的初步研究中，可适当放宽 $\alpha$ （例如使用 $\alpha = 0.10$ ）以保持足够的检验势，从而避免遗漏潜在有价值的发现。在许多经济学实证研究中，研究者还会结合经济显著性来综合判断结论的可靠性。

统计显著性与实际显著性

拒绝 $H_0$ 仅意味着统计显著性（statistical significance），即观测到的效应不太可能是由纯随机抽样误差造成的。然而，统计显著并不等同于实际显著性（practical significance）或经济显著性。这一区别在实证研究中极为关键：在大样本条件下，即使极其微小的效应量也能轻易达到统计显著。例如，在 $n = 10{,}000$ 的大样本中，两组均值仅相差 $0.01$ 个标准差也可能得到 $p < 0.001$ 的结果，但这一微小差异在实际应用中可能毫无意义。反之，当样本量很小时，即使效应量很大也可能无法达到统计显著。

因此，负责任的实证研究在报告假设检验结果时，应同时报告效应量的估计值，如 Cohen's $d$ 、 $\eta^2$ （eta-squared）、Cramér's $V$ 等，并附上其置信区间。效应量提供了关于效应大小的标准化度量，使得不同研究之间的结果可以直接比较。美国统计学会（ASA）2016 年发布的关于 $p$ 值的正式声明亦明确指出：统计显著不应成为科学出版或政策决策的唯一标准， $p$ 值本身并不能衡量效应的大小或结果的重要性。许多顶级经济学和医学期刊已明确要求作者在报告 $p$ 值的同时报告效应量和置信区间。

报告规范

在学术论文和统计报告中，应完整、透明地报告检验结果。推荐的报告格式包括检验统计量的符号及观测值、自由度（如适用）、精确 $p$ 值以及效应量的估计。例如：" $t(198) = 2.45$ ， $p = 0.015$ ，Cohen's $d = 0.35$ " 这样的报告远优于仅笼统地标注"结果显著"或" $p < 0.05$ "。研究者还应避免几种常见的 $p$ 值误读： $p$ 值不是 $H_0$ 为真的概率，不是效应量的度量，也不是研究结果可重复的概率。此外，应避免使用"高度显著""极显著"等模糊措辞代替精确 $p$ 值。

拒绝原假设