ARTICLE

p值

p值 (p-value) p值 (p-value),全称为 概率值 (probability value),是 假设检验 (Hypothesis Testing) 框架中的核心统计指标。它衡量在 零假设 (H_0) 为真的前提下,观测到当前样本统计量或更极端情况的 概率。简言之,p值是衡量样本数据与零假设之间不一致程度的指标——p值越小,数据与零假设的兼容性

浏览 83 更新 2025-10-25

p值 (p-value)

p值 (p-value),全称为 概率值 (probability value),是 假设检验 (Hypothesis Testing) 框架中的核心统计指标。它衡量在 零假设 (H0H_0) 为真的前提下,观测到当前样本统计量或更极端情况的 概率。简言之,p值是衡量样本数据与零假设之间不一致程度的指标——p值越小,数据与零假设的兼容性越差。

p值在假设检验中的作用

假设检验 是基于样本数据对总体参数做出推断的统计方法,p值在其中扮演决策纽带的角色:

  1. 建立假设零假设 (H0H_0) 表示"无效应、无差异"的状态,是研究者希望推翻的默认立场;备择假设 (HaH_a) 是研究者希望证明的命题。
  2. 设定显著性水平:预先选定 显著性水平 α\alpha,即愿意承担的 第一类错误(弃真)的最大概率。常用 α=0.05\alpha = 0.05
  3. 收集数据并计算检验统计量:抽取 随机样本,计算 检验统计量(如 t-统计量z-分数卡方统计量),量化样本与零假设期望的偏离。
  4. 计算p值:p值的形式化定义为: \[ p = P(\text{观察到与样本结果相同或更极端的结果} \mid H_0 \text{为真}) \] 其计算方式取决于检验类型(左尾、右尾或双尾)。
  5. 做出统计决策:若 pαp \le \alpha,拒绝 H0H_0,结果为 统计显著;若 p>αp > \alpha,则 未能拒绝 H0H_0(并不意味着 H0H_0 为真,仅表示证据不足)。

正确理解p值

p值是统计学中最常被误解的概念之一:

正确理解

  • p值是在 假定零假设为真 的前提下计算的条件概率。
  • 它衡量数据与模型的兼容性,是对"意外程度"的度量。

常见误解

  • p值不是零假设为真的概率。p值是 频率学派统计 的概念,不为假设本身分配概率(那是 贝叶斯统计 的范畴)。
  • 大的p值不证明零假设为真。未能拒绝 H0H_0 仅表示证据不足——样本量过小可能导致即使存在真实效应,p值也很大(第二类错误)。
  • p值不是结果由随机偶然性造成的概率。更准确的表述是:如果结果纯粹由随机性造成,则我们有p值的概率观测到当前或更极端的结果。
  • 1p1-p 不是备择假设为真的概率

计算示例:双尾z检验

检验一枚硬币是否公平。H0H_0:硬币公平 (pcoin=0.5p_{\text{coin}} = 0.5),HaH_a:硬币不公平 (pcoin0.5p_{\text{coin}} \ne 0.5)。抛掷100次,观察到62次正面。

零假设下期望正面次数 E(X)=100×0.5=50E(X) = 100 \times 0.5 = 50,标准差 σ=100×0.5×0.5=5\sigma = \sqrt{100 \times 0.5 \times 0.5} = 5。使用 正态近似 计算z-分数:

z=62505=2.4z = \frac{62 - 50}{5} = 2.4

由于是 双尾检验,p值为:

p-value=P(Z2.4)+P(Z2.4)=2×P(Z2.4)2×0.0082=0.0164\text{p-value} = P(Z \le -2.4) + P(Z \ge 2.4) = 2 \times P(Z \ge 2.4) \approx 2 \times 0.0082 = 0.0164

α=0.05\alpha = 0.05,因 0.0164<0.050.0164 < 0.05,拒绝零假设,结论为有统计显著的证据表明硬币不公平。

局限性与争议

p值虽广泛使用,但其滥用与 可重复性危机 密切相关:

  • 任意阈值:以 α=0.05\alpha = 0.05 为"魔法数字"导致非黑即白的思维——p=0.049p = 0.049p=0.051p = 0.051 的证据强度几无差别。
  • p值与效应大小无关:在 大样本 中,微小且无实际意义的效应也可能产生极小的p值。报告p值时须同时报告 效应大小置信区间
  • "p值操纵" (p-hacking):研究者选择性报告分析方法或数据,直至获得 p<0.05p < 0.05,产生大量虚假阳性结果。

鉴于上述问题,美国统计协会 (ASA) 等组织鼓励超越简单的p值阈值判断,强调研究设计稳健性、效应大小的实际意义及结果的可重复性。