ARTICLE

null hypothesis

零假设（Null Hypothesis，记作 H_0 ）是统计假设检验中作为基准或对照的假设，通常表示"无效应""无差异"或"无关联"的立场。零假设与备择假设（ H_1 或 H_a ）构成一对互斥且穷举的命题，研究者通过样本数据判断是否有充分证据拒绝零假设。零假设是频率学派统计推断的基石，其逻辑根基在于"证伪主义"——实验中不可能证明一个命题为真，但可以通过

浏览 0 更新 2025-11-08

零假设（Null Hypothesis，记作 $H_0$ ）是统计假设检验中作为基准或对照的假设，通常表示"无效应""无差异"或"无关联"的立场。零假设与备择假设（ $H_1$ 或 $H_a$ ）构成一对互斥且穷举的命题，研究者通过样本数据判断是否有充分证据拒绝零假设。零假设是频率学派统计推断的基石，其逻辑根基在于"证伪主义"——实验中不可能证明一个命题为真，但可以通过反例将其推翻。

1. 概念起源与逻辑基础

零假设的现代形式可追溯至英国统计学家罗纳德·费希尔（Ronald Fisher, 1925）。费希尔在《研究者的统计方法》中提出了"显著性检验"框架：设定一个"无效假设"（null hypothesis），计算在假设成立条件下观测到当前或更极端结果的概率（即p值），若该概率低于预设的显著性水平（如 0.05），则认为结果具有统计显著性。费希尔强调，显著性检验并非对假设的确定证伪，而是提供一种衡量证据强度的定量方法。

此后，耶日·内曼（Jerzy Neyman）与埃贡·皮尔逊（Egon Pearson）在 1933 年将假设检验系统化为一种决策理论框架。他们引入备择假设的概念，将检验问题转化为在两类错误之间进行权衡：第一类错误（型一错误）是错误地拒绝真实的零假设，第二类错误（型二错误）是未能拒绝错误的零假设。内曼-皮尔逊框架的核心思想是：在控制第一类错误概率不超过 $\alpha$ 的前提下，最小化第二类错误概率（或最大化检验的势，即 $1-\beta$ ）。这一框架将假设检验从单纯的显著性评价提升为一种最优决策方法。

2. 零假设的表述形式

2.1 简单零假设与复合零假设

根据参数空间的结构，零假设可分为简单假设与复合假设：

简单零假设：零假设完全指定参数的具体取值，如 $H_0: \mu = 0$ 。此时在原假设下，数据分布被唯一确定，p值可直接计算。典型例子包括单样本均值检验中的固定值比较。

复合零假设：零假设涵盖参数的多个可能取值，如 $H_0: \mu \le 0$ 或 $H_0: \mu \in [-1, 1]$ 。此时零假设对应的参数集合包含多个元素，检验统计量的分布并不唯一，需要寻找最不利情形（least favorable configuration）来构造检验。复合零假设在单侧检验和等效性检验中尤为常见。

2.2 点零假设与区间零假设

点零假设（如 $H_0: \mu = 0$ ）是传统检验中最常见的形式，但常因"精确为零"过于苛刻而受到批评——在实际研究中，任何效应几乎不可能恰好为零，因而大样本下点零假设几乎必然被拒绝。区间零假设（如 $H_0: |\mu| \le \delta$ ）因应此批评而兴起，它允许在某个微小的容忍区间内认为效应不显著，这在等效性检验（Equivalence Testing）和实际显著性（Practical Significance）评估中扮演重要角色。例如，两个药品若疗效差异不超过临床最小重要差异（MCID），则可判定为等效。

3. 零假设在统计检验中的作用

3.1 显著性检验中的"稻草人"角色

零假设在检验逻辑中扮演着类似"稻草人"的角色：研究者倾向于推翻它，但推翻零假设本身并不等同于证实备择假设。这一微妙区别常被误解。p值的正确解释是"在 $H_0$ 为真的前提下，观测到当前或更极端结果的概率"，而非" $H_0$ 为真的概率"。后者涉及贝叶斯推理中的后验概率，需要引入先验分布才能计算。因此，p值较小意味着数据与零假设"不相容"，但并非零假设不可能成立。

3.2 零假设与两类错误

零假设的真伪状态与检验决策的交叉构成四种可能结果：

决策\真实状态	$H_0$ 为真	$H_0$ 为假
不拒绝 $H_0$	正确（ $1-\alpha$ ）	第二类错误（ $\beta$ ）
拒绝 $H_0$	第一类错误（ $\alpha$ ）	正确（ $1-\beta$ ，即势）

研究者预先设定显著性水平 $\alpha$ （通常为 0.05 或 0.01），以控制第一类错误的风险。样本量、效应大小和 $\alpha$ 共同决定检验的势。在实验设计阶段进行势分析（Power Analysis）是确保检验有效性的关键步骤：势过低则即便存在真实效应也很难被检测到，导致徒劳的研究。

4. 零假设的争议与演变

4.1 p值与零假设的误用

近年来，零假设显著性检验（NHST）因其在科学研究中被广泛误用而饱受诟病。主要问题包括：(a) p值黑客（p-hacking）——研究者通过反复分析数据或选择性报告显著结果来操纵p值；(b) 发表偏倚（Publication Bias）——显著结果更容易被发表，导致文献中充斥着夸大的效应估计；(c) 对p值的二元化解读——将 p < 0.05 简单等同于"有发现"，忽视效应量和置信区间提供的信息。美国统计学会（ASA）在 2016 年发布关于p值的声明，明确警告不应将统计显著性与科学重要性混为一谈，并建议结合置信区间、贝叶斯因子和效应量进行综合判断。

4.2 零假设的贝叶斯视角

从贝叶斯角度看，零假设的检验问题可表述为两个竞争模型的比较。贝叶斯因子 $BF_{01} = P(\text{数据}|H_0)/P(\text{数据}|H_1)$ 直接量化数据支持零假设相对于备择假设的程度，而非仅关注零假设下的极端概率。贝叶斯方法能够纳入先验信息，在样本量较小时更为稳健，且可直观地回答"零假设成立的后验概率是多少"。此外，贝叶斯因子不受停止规则影响，允许研究者以累积方式审查证据，避免了频率学派多重比较的严苛校正。

4.3 零假设的替代框架

除贝叶斯方法外，学界还提出了多种补充或替代零假设显著性检验的框架：

等效性检验（TOST）：通过对两个单侧检验的组合，检验效应是否在预设的等效区间之外。若双侧的p值均小于 $\alpha$ ，则可判定为等效（即效应可忽略）。

估计方法：将重点从"是否拒绝零假设"转移至估计效应大小及其置信区间。这一范式倡导者认为，置信区间蕴含了显著性检验的全部信息——若置信区间不包含零值，则等价于拒绝零假设——同时提供了效应幅度的定量信息。

第二代替换检验：通过随机化或置换方法生成零分布，不依赖参数假设。置换检验（Permutation Test）通过随机打乱分组标签来模拟零假设下的分布，适用于复杂数据结构和非标准检验统计量。

5. 典型应用示例

在临床试验中，零假设通常设定为"新药与安慰剂疗效相等"（ $H_0: \mu_{\text{新药}} = \mu_{\text{安慰剂}}$ ）。研究者收集两组患者的结局指标数据，计算t统计量及其对应的p值。若 p < 0.05，则拒绝零假设，认为新药疗效显著优于安慰剂。但这一结论需要结合效应量（如 Cohen's d）和置信区间综合解释：即使统计显著，若效应量微小（如 d = 0.1），临床意义可能有限；反之，若 p > 0.05，仅表示数据不足以拒绝零假设，并不等同于两药等效——需通过等效性检验进一步确认。

在经济学中，零假设常用于检验市场有效性。例如，检验股票收益率是否服从随机游走时，零假设为"自回归系数 $\rho = 1$ "（即存在单位根）。若ADF检验不能拒绝零假设，则表明收益率序列可能具有单位根，支持弱式有效市场假说。但需要警惕的是，单位根检验的势在近单位根过程（如 $\rho = 0.95$ ）中可能极低，零假设可能因势不足而"被接受"，实为第二类错误。

6. 延伸阅读

关于零假设显著性检验的历史与逻辑，莱曼（Lehmann, 1993）的《假设检验》是经典理论参考；瓦瑟曼（Wasserman, 2004）的《统计学完全教程》以简洁的测度论语言梳理了假设检验的数学基础。在应用层面，卡明（Cumming, 2012）的《理解新统计》倡导以效应量和置信区间取代过度依赖p值的研究范式。中文文献中，陈希孺（2004）的《概率论与数理统计》对零假设的逻辑和应用给出了清晰的阐述。关于贝叶斯假设检验，卡萨拉和伯杰（Kass \& Raftery, 1995）的综述论文《贝叶斯因子》是必读文献。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。