ARTICLE
alternative hypothesis
备择假设 (Alternative Hypothesis) 备择假设 (Alternative Hypothesis),记作 H_a 或 H_1 ,是统计假设检验中与 原假设 (Null Hypothesis, H_0 ) 相对立的命题。在原假设-备择假设的二元框架中,备择假设代表了研究者通常希望寻找证据支持的那个论断——即存在某种效应、差异或关联。该框架由
备择假设 (Alternative Hypothesis)
备择假设 (Alternative Hypothesis),记作 或 ,是统计假设检验中与 原假设 (Null Hypothesis, ) 相对立的命题。在原假设-备择假设的二元框架中,备择假设代表了研究者通常希望寻找证据支持的那个论断——即存在某种效应、差异或关联。该框架由 耶日·内曼 (Jerzy Neyman) 与 埃贡·皮尔逊 (Egon Pearson) 在 20 世纪 30 年代系统化,与 罗纳德·费希尔 (Ronald Fisher) 的显著性检验共同奠定了现代假设检验的理论基础。
备择假设在原假设框架中的位置
在一个完整的 假设检验 (Hypothesis Testing) 过程中,原假设 与备择假设 构成了参数空间的一个 划分 (Partition)。原假设通常表述为"无效应"或"现状维持"的命题——例如"总体均值等于某特定值"、"两个总体之间无差异"或"变量之间独立"。备择假设则是对原假设的逻辑否定。
例如,在检验一枚硬币是否公平时:
其中 为硬币出现正面的概率。原假设宣称硬币公平,备择假设宣称硬币不公平。
这一框架的非对称性是理解假设检验逻辑的关键:原假设享有 "被假定为真,除非出现强力反证" 的地位。检验的目的并非"证明"备择假设为真,而是评估样本数据是否提供了 足够强的证据来拒绝原假设。因此,拒绝原假设被视为支持备择假设的间接证据,但 不能反过来——接受原假设绝不意味着备择假设被证伪,而仅意味着现有数据不足以拒绝原假设。
备择假设的两种形式:单侧与双侧
备择假设可以根据研究问题的方向性分为两类:
- 双侧备择假设 (Two-Sided Alternative):形如 。此时拒绝域分布在抽样分布的左右两端。研究者关心是否存在 任何方向 的偏离——无论参数是大于还是小于原假设值。双侧检验是最保守的选择,在探索性研究中尤为常见。
- 单侧备择假设 (One-Sided Alternative):形如 或 。拒绝域集中在一端。选择单侧检验的前提是研究者有充分的理论或先验依据排除另一方向的偏离。例如,在新药疗效试验中,若理论上新药不可能比安慰剂更差,可设 。单侧检验在相同样本量和显著性水平下具有更高的 统计功效,但若使用不当(即实际效应方向与假设相反),会丧失检测能力。
选择单侧与双侧必须在 数据观察之前 根据研究设计事先确定,否则会引入选择偏差,导致实际的第一类错误率偏离名义显著性水平 。
统计功效与备择假设的关系
备择假设与 统计功效 (Statistical Power) 密切相关。功效定义为当备择假设为真时正确拒绝原假设的概率,记为 ,其中 为 第二类错误 (Type II Error) 的概率。
在 Neyman-Pearson 引理 (Neyman-Pearson Lemma) 的框架下,对于简单原假设 与简单备择假设 的检验,似然比检验 (Likelihood Ratio Test) 在给定显著性水平 下一致地最大化功效。这为选择最优检验统计量提供了理论基础。
功效分析 (Power Analysis) 是现代实证研究设计中的关键步骤。研究者需要在数据收集前确定所需的样本量,以确保当备择假设所指定的 效应量 (Effect Size) 真实存在时,检验有足够高的概率(通常要求 )将其检测出来。备择假设越具体(例如指定一个具体的效应值而非仅仅说"不等于零"),功效分析就越精确。
复合备择假设与似然比检验
在实际应用中,备择假设通常是 复合的 (Composite),即 ,其中 是一个参数集合(如 ),而非单个点。对于复合备择假设,不存在一致最优检验 (Uniformly Most Powerful, UMP) 的一般保证,除非满足特定的分布族条件(如指数族的单调似然比性质)。
当 UMP 检验不存在时,常用的替代策略包括:
- 广义似然比检验 (Generalized Likelihood Ratio Test, GLRT):用参数在 和 下的 最大似然估计 (MLE) 替代未知参数,构造似然比统计量。在 成立时,GLRT 统计量的对数乘以 渐近服从 卡方分布,这一性质使得 GLRT 在大样本下具有广泛的适用性。
- Wald 检验 与 Score 检验 (Lagrange Multiplier Test):两者与 GLRT 构成大样本推断的三大检验策略,均在备择假设为复合形式时提供渐近等价的推断。
备择假设的意义与常见误用
备择假设在科学研究中扮演着核心角色,但围绕它的使用也存在一些常见的误解:
一. "接受备择假设"的措辞陷阱:严格而言,假设检验的逻辑不允许"接受备择假设"。拒绝 仅意味着数据与原假设的兼容性很低,从而 倾向于支持 备择假设,而非证明其为真。Fisher 的显著性检验传统甚至不设明确的备择假设,仅关注 值对原假设的否定程度。
二. 值不等于备择假设为真的概率: 值定义为 ,即在原假设为真的条件下观察到当前数据或更极端数据的概率。它 不是 ,更不是 。混淆这一条件概率方向是实证研究中再犯率最高的错误之一。若需要直接评估备择假设在给定数据下的概率,应转向 贝叶斯统计 的后验概率框架。
三. 原假设与备择假设的不对称性:在 Neyman-Pearson 框架中,两类错误的代价被区别对待。第一类错误("冤案"——拒绝一个真实为真的 )的控制优先级高于第二类错误("漏案"——未能拒绝一个错误的 )。这反映了科学实践中保守的认知策略:避免宣称一个不存在的效应为存在,比错过一个真实效应通常被视为更严重的错误。
与其他概念的关系
备择假设是连接 统计推断、实验设计 与 计量经济学 的核心概念。在计量经济学中,回归系数的 检验通常设定 与双侧备择假设 ,以检验某解释变量是否有显著影响。在 方差分析 (ANOVA) 中,备择假设为"至少有一个组的均值与其他组不同"。在 非参数统计 中,备择假设可以表述为分布间的某种随机次序关系而非参数等式。
近年来的 可重复性危机 (Replication Crisis) 与针对 值及原假设显著性检验 (NHST) 的反思,促使研究者更审慎地对待备择假设的设定与解读。预注册 (Pre-registration)、效应量报告、置信区间解释等实践改进,均旨在让备择假设的检验更加稳健和透明。无论方法论如何演变,备择假设作为研究问题的形式化表达,其核心地位在经验科学中不可动摇。