ARTICLE
对立假设
对立假设 (Alternative Hypothesis) 对立假设(Alternative Hypothesis,记作 H_1 或 H_a )是统计假设检验中与被检验的零假设(Null Hypothesis, H_0 )相对立的命题。当零假设被拒绝时,研究者倾向于接受对立假设所表述的结论。对立假设是统计推断的核心构件之一,与零假设共同构成了内曼-皮尔逊引理
对立假设 (Alternative Hypothesis)
对立假设(Alternative Hypothesis,记作 或 )是统计假设检验中与被检验的零假设(Null Hypothesis,)相对立的命题。当零假设被拒绝时,研究者倾向于接受对立假设所表述的结论。对立假设是统计推断的核心构件之一,与零假设共同构成了内曼-皮尔逊引理(Neyman--Pearson Lemma)框架下假设检验的逻辑基础:零假设代表"现状"或无效应状态,对立假设则代表研究者试图寻找的证据方向。在经济学实证研究中,对立假设通常对应于理论预测的效应方向——例如"最低工资政策对就业有负向影响"、"教育年限对收入有正向回报"或"两个群体的均值存在差异"。
统计假设检验中的角色
统计假设检验的基本逻辑围绕零假设与对立假设之间的非对称关系展开。零假设被赋予"无罪推定"的地位:在没有充分证据的情况下,不拒绝零假设。对立假设则是需要数据提供足够证据才能被接受的命题。这一非对称性根植于波普尔的证伪主义科学哲学——理论无法被最终证实,只能被证伪。因此,研究者将希望"推翻"的命题设为 ,将希望"证明"的命题设为 ,通过控制第一类错误(Type I Error,即 为真时拒绝 的概率,通常记为 )来构造检验。当检验统计量落入拒绝域时,研究者以概率 的置信度拒绝零假设,从而间接支持对立假设。
以经济学中常用的双样本均值比较为例:研究者希望检验一个培训项目是否提高了参与者的工资。此时可设定 (项目无效果),(项目有效果)。若 检验的 值低于预设显著性水平(如 0.05),则拒绝 ,为对立假设提供了统计支持。但必须注意,拒绝 并不等同于直接"证实" 为真——它仅仅表明,在零假设成立的世界里,观测到当前数据(或更极端数据)的概率极低。
对立假设的三种形式
根据研究问题的性质,对立假设可采取三种基本形式,其选择直接影响检验的拒绝域分布和统计功效。
单侧对立假设(One-Sided Alternative):当理论或先验知识明确预测效应的方向时,采用 或 。例如,效率工资理论预测高于市场出清水平的工资能提升劳动生产率,因此 。单侧检验的拒绝域集中于分布的一端,在效应方向正确时比双侧检验具有更高的统计功效。其风险在于,若真实效应方向与预设相反,单侧检验将完全无法检测到该效应。
双侧对立假设(Two-Sided Alternative):当研究者没有先验理由判断效应方向,或出于保守考虑时,采用 。这是经济学实证研究中最常见的形式。例如,检验某项政策干预是否产生效果(不论正负),。双侧检验的拒绝域对称分布于分布两端,每端各承担 的显著性水平。
复合对立假设(Composite Alternative):在许多实际问题中, 不是一个单一参数值而是一个范围,例如 涵盖了所有正实数。复合对立假设的检验通常依赖似然比检验(Likelihood Ratio Test),其统计量在 下渐近服从 分布。
统计功效与对立假设
对立假设与统计功效(Statistical Power)之间存在本质联系。统计功效定义为:当对立假设为真时,正确拒绝零假设的概率,即 (这里的 是第二类错误的概率,与回归系数符号无关)。功效取决于四个因素:效应量(Effect Size,即对立假设所设定的偏离 的程度)、样本量 、显著性水平 ,以及检验的方向性(单侧或双侧)。
在经济学实证研究中,功效分析(Power Analysis)常用于事前确定所需样本量。研究者需要设定一个"具有经济显著性"的最小效应量,这本质上是在对立假设中嵌入一个效应大小的具体数值。例如,在随机对照试验(RCT)中,若研究者认为只有考试成绩提高 0.2 个标准差以上的干预才具有政策意义,则 可具体化为 。给定 和目标功效 ,可反算所需的最小样本量。这一做法近年来在发展经济学的田野实验中日益成为标准实践。
费希尔显著性检验与内曼-皮尔逊框架中的对立假设
理解对立假设需要区分统计假设检验的两大传统。费希尔(R. A. Fisher)的显著性检验框架不显式定义对立假设:研究者仅计算在 下观测到当前(或更极端)数据的 值,若 足够小则视为反对 的证据。费希尔框架没有"接受 "的概念,只有不同程度的证据反对 。
内曼(Jerzy Neyman)和皮尔逊(Egon Pearson)则发展了一个决策理论框架,其中对立假设是显式定义的、与零假设地位对等的命题。他们的目标不是量化证据,而是在 和 之间做出"行为规则"式的决策,同时控制两类错误的长期频率。内曼-皮尔逊引理证明,对于简单假设 对 ,似然比检验在给定 下最大化功效。
当代经济学实证研究实际上混合了两种框架:报告 值(费希尔传统),同时也基于显著性水平做出"是否拒绝 "的二元决策(内曼-皮尔逊传统)。对立假设在这一混合实践中扮演着桥梁角色,连接了统计技术的操作层面与研究问题的实质层面。
经济学中的典型应用与误区
在计量经济学中,对立假设几乎出现在每一个涉及假设检验的环节。回归系数的 检验( vs )、多个系数的联合 检验( vs )、豪斯曼检验( vs )、工具变量中的弱工具变量检验( vs ,其中 是第一阶段系数)等,无不依赖对立假设的设定。
实践中常见的误区包括:第一,将"不拒绝 "等同于" 为真",进而等同于" 为假"。实际上,不拒绝可能仅仅源于样本量不足或效应量过小。第二,将统计显著性与经济显著性混为一谈:在大样本中,一个微不足道的效应也可能成为统计显著,此时对立假设虽得到支持,但政策含义近乎为零。第三, 值操纵(P-hacking):研究者通过反复调整对立假设的形式(如从双侧转为单侧)、改变控制变量或选择子样本,直到获得统计显著的结果。这些问题在实证研究的可信性革命(Credibility Revolution)中受到了广泛批评,推动了预注册(Pre-registration)和预分析计划(PAP)等制度创新。
与零假设的关系及贝叶斯视角
对立假设的设定不可避免地涉及与零假设之间的一种"不对称战争"。零假设通常是一个精确的点假设(如 ),而对立假设往往是一个范围,这在数学上使 更容易在样本量足够大时"获胜"。贝叶斯统计提供了另一种视角:放弃"拒绝/不拒绝"的二元框架,直接计算给定数据下对立假设和零假设的后验概率之比(贝叶斯因子)。贝叶斯方法允许为 和 各自分配先验概率,并通过数据更新信念,从而避免了频率学派框架中 值被误读为" 为真的概率"这一常见谬误。然而,由于先验选择的主观性和计算复杂性,频率学派的对立假设框架在经济学应用研究中仍占据绝对主导地位。