ARTICLE

null hypothesis

零假设(Null Hypothesis,记作 H_0 )是统计假设检验中作为基准或对照的假设,通常表示"无效应""无差异"或"无关联"的立场。零假设与备择假设( H_1 或 H_a )构成一对互斥且穷举的命题,研究者通过样本数据判断是否有充分证据拒绝零假设。零假设是频率学派统计推断的基石,其逻辑根基在于"证伪主义"——实验中不可能证明一个命题为真,但可以通过

浏览 0 更新 2025-11-08

零假设(Null Hypothesis,记作 H0 H_0 )是统计假设检验中作为基准或对照的假设,通常表示"无效应""无差异"或"无关联"的立场。零假设与备择假设(H1 H_1 Ha H_a )构成一对互斥且穷举的命题,研究者通过样本数据判断是否有充分证据拒绝零假设。零假设是频率学派统计推断的基石,其逻辑根基在于"证伪主义"——实验中不可能证明一个命题为真,但可以通过反例将其推翻。

1. 概念起源与逻辑基础

零假设的现代形式可追溯至英国统计学家罗纳德·费希尔(Ronald Fisher, 1925)。费希尔在《研究者的统计方法》中提出了"显著性检验"框架:设定一个"无效假设"(null hypothesis),计算在假设成立条件下观测到当前或更极端结果的概率(即p值),若该概率低于预设的显著性水平(如 0.05),则认为结果具有统计显著性。费希尔强调,显著性检验并非对假设的确定证伪,而是提供一种衡量证据强度的定量方法。

此后,耶日·内曼(Jerzy Neyman)与埃贡·皮尔逊(Egon Pearson)在 1933 年将假设检验系统化为一种决策理论框架。他们引入备择假设的概念,将检验问题转化为在两类错误之间进行权衡:第一类错误(型一错误)是错误地拒绝真实的零假设,第二类错误(型二错误)是未能拒绝错误的零假设。内曼-皮尔逊框架的核心思想是:在控制第一类错误概率不超过 α \alpha 的前提下,最小化第二类错误概率(或最大化检验的势,即 1β 1-\beta )。这一框架将假设检验从单纯的显著性评价提升为一种最优决策方法。

2. 零假设的表述形式

2.1 简单零假设与复合零假设

根据参数空间的结构,零假设可分为简单假设与复合假设:

简单零假设:零假设完全指定参数的具体取值,如 H0:μ=0 H_0: \mu = 0 。此时在原假设下,数据分布被唯一确定,p值可直接计算。典型例子包括单样本均值检验中的固定值比较。

复合零假设:零假设涵盖参数的多个可能取值,如 H0:μ0 H_0: \mu \le 0 H0:μ[1,1] H_0: \mu \in [-1, 1] 。此时零假设对应的参数集合包含多个元素,检验统计量的分布并不唯一,需要寻找最不利情形(least favorable configuration)来构造检验。复合零假设在单侧检验和等效性检验中尤为常见。

2.2 点零假设与区间零假设

点零假设(如 H0:μ=0 H_0: \mu = 0 )是传统检验中最常见的形式,但常因"精确为零"过于苛刻而受到批评——在实际研究中,任何效应几乎不可能恰好为零,因而大样本下点零假设几乎必然被拒绝。区间零假设(如 H0:μδ H_0: |\mu| \le \delta )因应此批评而兴起,它允许在某个微小的容忍区间内认为效应不显著,这在等效性检验(Equivalence Testing)和实际显著性(Practical Significance)评估中扮演重要角色。例如,两个药品若疗效差异不超过临床最小重要差异(MCID),则可判定为等效。

3. 零假设在统计检验中的作用

3.1 显著性检验中的"稻草人"角色

零假设在检验逻辑中扮演着类似"稻草人"的角色:研究者倾向于推翻它,但推翻零假设本身并不等同于证实备择假设。这一微妙区别常被误解。p值的正确解释是"在 H0 H_0 为真的前提下,观测到当前或更极端结果的概率",而非"H0 H_0 为真的概率"。后者涉及贝叶斯推理中的后验概率,需要引入先验分布才能计算。因此,p值较小意味着数据与零假设"不相容",但并非零假设不可能成立。

3.2 零假设与两类错误

零假设的真伪状态与检验决策的交叉构成四种可能结果:

| 决策\真实状态 | H0 H_0 为真 | H0 H_0 为假 | |:---:|:---:|:---:| | 不拒绝 H0 H_0 | 正确(1α 1-\alpha ) | 第二类错误(β \beta ) | | 拒绝 H0 H_0 | 第一类错误(α \alpha ) | 正确(1β 1-\beta ,即势) |

研究者预先设定显著性水平 α \alpha (通常为 0.05 或 0.01),以控制第一类错误的风险。样本量、效应大小和 α \alpha 共同决定检验的势。在实验设计阶段进行势分析(Power Analysis)是确保检验有效性的关键步骤:势过低则即便存在真实效应也很难被检测到,导致徒劳的研究。

4. 零假设的争议与演变

4.1 p值与零假设的误用

近年来,零假设显著性检验(NHST)因其在科学研究中被广泛误用而饱受诟病。主要问题包括:(a) p值黑客(p-hacking)——研究者通过反复分析数据或选择性报告显著结果来操纵p值;(b) 发表偏倚(Publication Bias)——显著结果更容易被发表,导致文献中充斥着夸大的效应估计;(c) 对p值的二元化解读——将 p < 0.05 简单等同于"有发现",忽视效应量和置信区间提供的信息。美国统计学会(ASA)在 2016 年发布关于p值的声明,明确警告不应将统计显著性与科学重要性混为一谈,并建议结合置信区间、贝叶斯因子和效应量进行综合判断。

4.2 零假设的贝叶斯视角

从贝叶斯角度看,零假设的检验问题可表述为两个竞争模型的比较。贝叶斯因子 BF01=P(数据H0)/P(数据H1) BF_{01} = P(\text{数据}|H_0)/P(\text{数据}|H_1) 直接量化数据支持零假设相对于备择假设的程度,而非仅关注零假设下的极端概率。贝叶斯方法能够纳入先验信息,在样本量较小时更为稳健,且可直观地回答"零假设成立的后验概率是多少"。此外,贝叶斯因子不受停止规则影响,允许研究者以累积方式审查证据,避免了频率学派多重比较的严苛校正。

4.3 零假设的替代框架

除贝叶斯方法外,学界还提出了多种补充或替代零假设显著性检验的框架:

等效性检验(TOST):通过对两个单侧检验的组合,检验效应是否在预设的等效区间之外。若双侧的p值均小于 α \alpha ,则可判定为等效(即效应可忽略)。

估计方法:将重点从"是否拒绝零假设"转移至估计效应大小及其置信区间。这一范式倡导者认为,置信区间蕴含了显著性检验的全部信息——若置信区间不包含零值,则等价于拒绝零假设——同时提供了效应幅度的定量信息。

第二代替换检验:通过随机化或置换方法生成零分布,不依赖参数假设。置换检验(Permutation Test)通过随机打乱分组标签来模拟零假设下的分布,适用于复杂数据结构和非标准检验统计量。

5. 典型应用示例

在临床试验中,零假设通常设定为"新药与安慰剂疗效相等"(H0:μ新药=μ安慰剂 H_0: \mu_{\text{新药}} = \mu_{\text{安慰剂}} )。研究者收集两组患者的结局指标数据,计算t统计量及其对应的p值。若 p < 0.05,则拒绝零假设,认为新药疗效显著优于安慰剂。但这一结论需要结合效应量(如 Cohen's d)和置信区间综合解释:即使统计显著,若效应量微小(如 d = 0.1),临床意义可能有限;反之,若 p > 0.05,仅表示数据不足以拒绝零假设,并不等同于两药等效——需通过等效性检验进一步确认。

在经济学中,零假设常用于检验市场有效性。例如,检验股票收益率是否服从随机游走时,零假设为"自回归系数 ρ=1 \rho = 1 "(即存在单位根)。若ADF检验不能拒绝零假设,则表明收益率序列可能具有单位根,支持弱式有效市场假说。但需要警惕的是,单位根检验的势在近单位根过程(如 ρ=0.95 \rho = 0.95 )中可能极低,零假设可能因势不足而"被接受",实为第二类错误。

6. 延伸阅读

关于零假设显著性检验的历史与逻辑,莱曼(Lehmann, 1993)的《假设检验》是经典理论参考;瓦瑟曼(Wasserman, 2004)的《统计学完全教程》以简洁的测度论语言梳理了假设检验的数学基础。在应用层面,卡明(Cumming, 2012)的《理解新统计》倡导以效应量和置信区间取代过度依赖p值的研究范式。中文文献中,陈希孺(2004)的《概率论与数理统计》对零假设的逻辑和应用给出了清晰的阐述。关于贝叶斯假设检验,卡萨拉和伯杰(Kass \& Raftery, 1995)的综述论文《贝叶斯因子》是必读文献。