ARTICLE

族错误率

族错误率(family-wise error rate, FWER)是多重假设检验中最经典的整体错误控制指标。当研究者同时对一组(称为一个"族")假设进行检验时,每项单独检验都存在第一类错误(假阳性)的风险,而这些风险会在多次检验中累积。FWER 的精确定义是:在一族检验中,至少错误拒绝一个真实原假设的概率,即 FWER = P(V 1) ,其中 V 代表一

浏览 0 更新 2025-10-26

族错误率(family-wise error rate, FWER)是多重假设检验中最经典的整体错误控制指标。当研究者同时对一组(称为一个"族")假设进行检验时,每项单独检验都存在第一类错误(假阳性)的风险,而这些风险会在多次检验中累积。FWER 的精确定义是:在一族检验中,至少错误拒绝一个真实原假设的概率,即 FWER=P(V1) \text{FWER} = P(V \geq 1) ,其中 V V 代表一族检验中假阳性发现的个数。

动机:多重比较问题的起源

假设每次假设检验的显著性水平为 α=0.05 \alpha = 0.05 ,检验 m m 个相互独立的真实原假设。那么至少出现一次假阳性的概率为 1(1α)m 1 - (1 - \alpha)^m 。当 m=10 m = 10 时,这一概率约为 0.401 0.401 ;当 m=100 m = 100 时,几乎必然出现假阳性。这意味着,如果不加以校正,即便所有原假设都为真,研究者也有极高概率宣称存在"显著"发现。FWER 控制正是为了应对这一膨胀风险而提出的。

形式定义

设一族共 m m 个假设检验 {H1,H2,,Hm} \{H_1, H_2, \ldots, H_m\} ,其中 m0 m_0 个为真实原假设。检验结果可归类为:

| | 宣称不显著 | 宣称显著 | |---------|-----------|---------| | H0 H_0 真 | U U (真阴性) | V V (假阳性) | | H0 H_0 假 | T T (假阴性) | S S (真阳性) |

FWER 定义为 FWER=P(V1) \text{FWER} = P(V \geq 1) 。FWER 控制的目标是确保在任意真实原假设的配置下,FWERα \text{FWER} \leq \alpha 。这种控制称为强控制(strong control),区别于仅在全局原假设(所有 H0 H_0 均为真)下成立的弱控制。

主要控制方法

Bonferroni 校正

最经典也最保守的方法。将显著性水平均分到每个检验:当 piα/m p_i \leq \alpha / m 时拒绝 Hi H_i 。该方法不要求检验独立性,对任意依赖结构均有 FWERα \text{FWER} \leq \alpha ,是目前应用最广泛的 FWER 控制手段。其缺点是当 m m 很大时,单次检验的阈值过于严格,导致检验功效(power)急剧下降。

Holm-Bonferroni 逐步下降法

Holm(1979)提出了一种一致更有效的逐步下降(step-down)方法:将 p p 值从小到大排序 p(1)p(2)p(m) p_{(1)} \leq p_{(2)} \leq \cdots \leq p_{(m)} ,从 j=1 j=1 开始依次检验 p(j)α/(mj+1) p_{(j)} \leq \alpha / (m - j + 1) ;在第一次不满足时停止,拒绝此前所有假设。Holm 方法在保持 FWER 强控制的同时,统计功效始终不低于 Bonferroni 校正。

Šidák 校正

假设检验独立时,FWER=1(1αper)m \text{FWER} = 1 - (1 - \alpha_{\text{per}})^m ,令其 α \leq \alpha 解得单次水平 αper=1(1α)1/m \alpha_{\text{per}} = 1 - (1 - \alpha)^{1/m} 。当 m m 较大时 αperα/m \alpha_{\text{per}} \approx \alpha / m ,与 Bonferroni 接近但略宽松。Šidák 校正严格依赖于独立性假设,在正依赖情形下仍可保持 FWER 控制,但在一般依赖结构下不保证。

Hochberg 逐步上升法

Hochberg(1988)的逐步上升(step-up)方法从最大 p p 值开始:当 p(j)α/(mj+1) p_{(j)} \leq \alpha / (m - j + 1) 时,拒绝 H(1),,H(j) H_{(1)}, \ldots, H_{(j)} 及其后所有假设。该方法比 Holm 方法更具功效,但要求检验统计量具有非负回归依赖结构(如多元正态的正相关),在一般依赖下不保证 FWER 控制。

与错误发现率(FDR)的关系

FWER 控制的目标是避免"任何一个"假阳性,这在验证性研究中(如临床试验的注册主要终点)至关重要。然而,在探索性研究和高维数据(如基因组学)中,FWER 过于严格。Benjamini 和 Hochberg(1995)提出错误发现率(false discovery rate, FDR),定义为 FDR=E[V/max(R,1)] \text{FDR} = \mathbb{E}[V / \max(R, 1)] ,其中 R=V+S R = V + S 为被拒绝的总数。FDR 控制允许少量假阳性,换取更高的统计功效,更适合大规模筛查场景。

应用与局限

FWER 控制广泛应用于临床试验的多重终点分析、方差分析中的事后两两比较(Tukey HSD、Scheffé 方法)、以及心理学与教育研究的量表维度分析。其主要局限在于保守性:当 m m 较大且信号稀疏时,FWER 控制会导致大量真阳性无法被检出。实践中,研究者在验证性分析中使用 FWER,在探索性分析中倾向于使用 FDR 或更宽松的方法,以在错误保护与发现能力之间取得平衡。