ARTICLE

多重比较校正

多重比较校正 (Multiple Comparison Correction) 多重比较校正 (Multiple Comparison Correction) 是指在同时对多个统计假设进行检验时,对显著性水平进行调整以控制整体假阳性风险的一系列方法。当研究者对一组数据执行多个独立的统计检验时,即使所有零假设均为真,仅因抽样误差也会使其中某些检验偶然达到统计显

浏览 6 更新 2026-07-11

多重比较校正 (Multiple Comparison Correction)

多重比较校正 (Multiple Comparison Correction) 是指在同时对多个统计假设进行检验时,对显著性水平进行调整以控制整体假阳性风险的一系列方法。当研究者对一组数据执行多个独立的统计检验时,即使所有零假设均为真,仅因抽样误差也会使其中某些检验偶然达到统计显著。随着检验数目 mm 的增大,至少出现一次第一类错误(假阳性)的概率急剧上升:若各检验独立且显著性水平均为 α\alpha,该概率为 1(1α)m1 - (1 - \alpha)^m。当 m=10m = 10α=0.05\alpha = 0.05 时,该概率已达约 40\%;当 m=100m = 100 时则超过 99\%。多重比较校正正是为了应对这一固有困难而发展出的统计方法论体系。

问题的本质:多重性

多重比较问题的核心在于多重性 (multiplicity) 带来的偏差。从数学角度看,若定义 族系错误率 (Family-Wise Error Rate, FWER) 为至少一次假阳性出现的概率,则:

FWER=P(i=1m{拒绝 H0(i)H0(i)为真})\text{FWER} = P\left(\bigcup_{i=1}^{m} \{\text{拒绝 } H_0^{(i)} \mid H_0^{(i)} \text{为真}\}\right)

当各检验独立且均以水平 α\alpha 进行时,FWER=1(1α)m\text{FWER} = 1 - (1 - \alpha)^m。多重比较校正的目标集中体现为两大方向:一是控制 FWER,即确保整体上不出现任何假阳性的概率足够高;二是控制 错误发现率 (False Discovery Rate, FDR),即错误拒绝比例在可容忍范围内。这两大方向对应着不同的应用场景和研究哲学。

FWER 控制方法

控制 FWER 的方法以严格著称,适用于确证性研究和单一终点分析。除经典的Bonferroni校正外,主要有以下变体:

Šidák 校正:将每次检验的显著性水平设为 αSˇidaˊk=1(1α)1/m\alpha_{\text{Šidák}} = 1 - (1 - \alpha)^{1/m}。当各检验相互独立时,Šidák 校正精确地将 FWER 控制在 α\alpha,且因 αSˇidaˊkα/m\alpha_{\text{Šidák}} \geq \alpha/m,其功效略优于 Bonferroni。但独立性假设使其在检验相关时失效。

Holm–Bonferroni 逐步下降法:将 pp 值从小到大排序为 p(1)p(m)p_{(1)} \leq \cdots \leq p_{(m)}。对 k=1,2,k = 1, 2, \dots,依次检验 p(k)α/(mk+1)p_{(k)} \leq \alpha/(m - k + 1),一旦某步不满足则停止并接受剩余所有零假设。Holm 方法在 Bonferroni 基础上提升了功效,且同样不要求独立性。

Hochberg 逐步上升法:与 Holm 程序方向相反,从最大 pp 值开始向下检验,当 p(k)α/(mk+1)p_{(k)} \leq \alpha/(m - k + 1) 时,拒绝该假设及所有更小的 pp 值。Hochberg 方法的功效通常高于 Holm,但要求检验统计量满足特定正相关条件(如 Simes 条件)。

Scheffé 方法:专用于所有可能的线性对比 (contrast) 检验,即事后比较 (post-hoc comparisons)。其阈值基于 FF 分布,为 (m1)Fα,m1,Nm(m - 1) \cdot F_{\alpha, m-1, N-m}。Scheffé 方法以相当保守著称,但其优势在于可同时检验无穷多种对比而无需额外校正。

Tukey 诚实显著性差异 (HSD) 检验:专为所有配对比较设计。当各组样本量相等时,Tukey HSD 使用学生化极差 (studentized range) 分布,在控制 FWER 的同时保持了相对较高的功效,是方差分析 (ANOVA) 后多重比较的常用选择。

Dunnett 检验:专用于各处理组与一个共同对照组之间的比较。Dunnett 检验的阈值基于多元 tt 分布,比 Tukey HSD 更适用于向对照组比较的场景。

FDR 控制方法

当检验数量极大且研究具有探索性时,FWER 控制方法过于保守,会遗漏大量真实效应。错误发现率 (False Discovery Rate) 作为替代指标应运而生,定义为错误拒绝的零假设比例:FDR=E[V/R]\text{FDR} = E[V / R],其中 VV 为错误拒绝数,RR 为总拒绝数(当 R=0R = 0 时定义 FDR = 0)。

Benjamini–Hochberg (BH) 方法 (1995) 是 FDR 控制的基础程序:将 pp 值排序后,找到最大 kk 满足 p(k)(k/m)qp_{(k)} \leq (k/m) \cdot q,其中 qq 为目标 FDR 水平。拒绝所有 H0(1),,H0(k)H_0^{(1)}, \dots, H_0^{(k)}。BH 方法在独立或正相关检验下能有效控制 FDR,且比任何 FWER 控制方法都具有更高的发现力。

Benjamini–Yekutieli (BY) 方法 将 BH 程序推广至任意相关结构,通过引入修正因子 c(m)=i=1m1/ic(m) = \sum_{i=1}^{m} 1/i 将阈值调整为 (k/(mc(m)))q(k / (m \cdot c(m))) \cdot q。BY 方法比 BH 更保守,但适用于所有依赖结构。

Storey 的 qq 值方法:基于对零假设比例的估计,qq 值定义为给定 pp 值阈值下的最小 FDR。该方法比 BH 更具适应性,在大量检验中被拒绝时尤为有效。

多重比较校正的现代发展

随着数据维度的爆炸式增长,多重比较校正方法不断演进。在基因组学的全基因组关联研究 (GWAS) 中,mm 可达数百万,Bonferroni 阈值 (α=5×108\alpha = 5 \times 10^{-8}) 已成为事实标准。在神经影像学的功能磁共振成像 (fMRI) 分析中,体素级检验数目可达数十万,除 Bonferroni 外广泛使用聚类水平校正 (cluster-level correction) 和基于置换检验 (permutation testing) 的非参数校正方法。

计量经济学和实证经济学中,多重比较校正的应用日益受到重视。当一项随机对照实验 (RCT) 同时报告多个结果变量、多个子组或多个时间点的处理效应时,若不校正,假阳性发现可能导致误导性的政策建议。近年来,研究者开始系统性地报告经多重比较校正后的 pp 值,或使用族系错误率敏感度分析 (FWER sensitivity analysis) 来展示结论的稳健性。

选择校正方法的准则

选择恰当的校正方法需考虑以下因素:

  1. 研究目的:确证性研究应优先控制 FWER(如 Bonferroni 或 Holm),探索性研究可考虑 FDR 控制(如 BH 方法)。
  2. 检验相关性:若检验高度相关,Bonferroni 过于保守,可考虑置换检验或基于重抽样的方法。
  3. 检验结构:配对比较选 Tukey HSD,与对照组比较选 Dunnett,事后线性对比选 Scheffé。
  4. 功效权衡:在样本量有限时,FDR 控制方法通常比 FWER 控制方法发现更多真效应。

多重比较校正并非统计学的技术细节,而是科学推断中关乎可重复性的核心问题。任何涉及多重假设检验的实证研究,都应将适当的校正方法作为分析框架的必要组成部分,以维护统计推断的可靠性与科学的可信度。忽视校正可能导致大量虚假发现充斥文献,进而侵蚀整个学科的可信度,这也是近年来心理学和生物医学领域持续推动可重复性运动的核心关切之一。

\begin{thebibliography}{99}

\bibitem{benjamini1995} Benjamini, Y., \& Hochberg, Y. (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society: Series B, 57(1), 289--300.

\bibitem{benjamini2001} Benjamini, Y., \& Yekutieli, D. (2001). The Control of the False Discovery Rate in Multiple Testing under Dependency. Annals of Statistics, 29(4), 1165--1188.

\bibitem{holm1979} Holm, S. (1979). A Simple Sequentially Rejective Multiple Test Procedure. Scandinavian Journal of Statistics, 6(2), 65--70.

\bibitem{hochberg1988} Hochberg, Y. (1988). A Sharper Bonferroni Procedure for Multiple Tests of Significance. Biometrika, 75(4), 800--802.

\bibitem{storey2002} Storey, J. D. (2002). A Direct Approach to False Discovery Rates. Journal of the Royal Statistical Society: Series B, 64(3), 479--498.

\bibitem{tukey1949} Tukey, J. W. (1949). Comparing Individual Means in the Analysis of Variance. Biometrics, 5(2), 99--114.

\bibitem{dunnett1955} Dunnett, C. W. (1955). A Multiple Comparison Procedure for Comparing Several Treatments with a Control. Journal of the American Statistical Association, 50(272), 1096--1121.

\bibitem{scheffe1953} Scheffé, H. (1953). A Method for Judging All Contrasts in the Analysis of Variance. Biometrika, 40(1/2), 87--104.

\end{thebibliography}