假设检验 (Hypothesis Testing)
假设检验 (Hypothesis Testing),也称 显著性检验 (Significance Testing),是推断统计学的核心工具。它是一种基于样本数据判断关于总体参数的断言是否成立的统计方法。其本质是"证伪":先提出一个需要被检验的假设(零假设),再评估样本证据反对该假设的强度。
核心概念
- 零假设 (H0):研究者想要推翻的陈述,代表"无效应"或"无差异"。检验中我们假定 H0 为真,再寻找反对证据。
- 备择假设 (H1 或 Ha):H0 的对立面。其形式决定检验类型:
- 双边检验:H1 为"不等于"(=),检验任一方向的偏离。
- 单边检验:H1 为"大于"(>)或"小于"(<),检验特定方向的偏离。
逻辑框架
假设检验遵循"无罪推定"逻辑:先假定 H0 为真(嫌疑人无罪),收集样本数据(证据)。若证据足够强,拒绝 H0;若证据不足,未能拒绝 H0。注意:未能拒绝 H0 不等于证明 H0 正确——仅表明证据不足以推翻它。
两类错误
- Type I Error(弃真):H0 为真却被拒绝,概率记为 α(显著性水平)。
- Type II Error(取伪):H0 为假却未拒绝,概率记为 β。
α 通常设为 0.05、0.01 或 0.10。减小 α 降低第一类错误风险,但会增加 β。1−β 称为统计功效。
实施步骤
步骤 1:陈述假设。明确 H0 和 H1,决定检验方向。
步骤 2:设定 α。选择可容忍的第一类错误概率上限。
步骤 3:计算检验统计量。常见统计量:
- z 统计量:大样本或总体方差已知。
- t 统计量:小样本且总体方差未知,基于t分布。
- χ2 统计量:分类数据的拟合优度或独立性检验。
- F 统计量:方差分析 (ANOVA) 或回归整体显著性。
步骤 4:做出决策。两种等价方法:
临界值法:据 α 和分布确定临界值与拒绝域。检验统计量落入拒绝域则拒绝 H0。
P值法(更常用):计算P值——假定 H0 为真时,观察到当前或更极端结果的概率。若 p-value≤α,拒绝 H0;否则未能拒绝。P值越小,反对 H0 的证据越强。
示例:单样本 Z 检验
灯泡厂声称产品平均寿命 μ=800 小时。抽检 n=36 个灯泡,xˉ=815,已知 σ=40。α=0.05,双边检验。
H0:μ=800,H1:μ=800。
z=σ/nxˉ−μ0=40/6815−800=2.25
α=0.05 双边临界值 zα/2=±1.96。z=2.25>1.96,落入拒绝域。
p=2×P(Z≥2.25)≈0.0244<0.05。
结论:拒绝 H0,平均寿命与 800 小时有显著差异。
统计显著 vs 实际显著
统计显著性不等同于实际显著性。大样本下,微小差异(如 xˉ=800.1)也可能统计显著但毫无实际意义。应结合效应量 (Effect Size) 评估差异幅度。