ARTICLE
族错误率
族错误率(family-wise error rate, FWER)是多重假设检验中最经典的整体错误控制指标。当研究者同时对一组(称为一个"族")假设进行检验时,每项单独检验都存在第一类错误(假阳性)的风险,而这些风险会在多次检验中累积。FWER 的精确定义是:在一族检验中,至少错误拒绝一个真实原假设的概率,即 FWER = P(V 1) ,其中 V 代表一
族错误率(family-wise error rate, FWER)是多重假设检验中最经典的整体错误控制指标。当研究者同时对一组(称为一个"族")假设进行检验时,每项单独检验都存在第一类错误(假阳性)的风险,而这些风险会在多次检验中累积。FWER 的精确定义是:在一族检验中,至少错误拒绝一个真实原假设的概率,即 ,其中 代表一族检验中假阳性发现的个数。
动机:多重比较问题的起源
假设每次假设检验的显著性水平为 ,检验 个相互独立的真实原假设。那么至少出现一次假阳性的概率为 。当 时,这一概率约为 ;当 时,几乎必然出现假阳性。这意味着,如果不加以校正,即便所有原假设都为真,研究者也有极高概率宣称存在"显著"发现。FWER 控制正是为了应对这一膨胀风险而提出的。
形式定义
设一族共 个假设检验 ,其中 个为真实原假设。检验结果可归类为:
| | 宣称不显著 | 宣称显著 | |---------|-----------|---------| | 真 | (真阴性) | (假阳性) | | 假 | (假阴性) | (真阳性) |
FWER 定义为 。FWER 控制的目标是确保在任意真实原假设的配置下,。这种控制称为强控制(strong control),区别于仅在全局原假设(所有 均为真)下成立的弱控制。
主要控制方法
Bonferroni 校正
最经典也最保守的方法。将显著性水平均分到每个检验:当 时拒绝 。该方法不要求检验独立性,对任意依赖结构均有 ,是目前应用最广泛的 FWER 控制手段。其缺点是当 很大时,单次检验的阈值过于严格,导致检验功效(power)急剧下降。
Holm-Bonferroni 逐步下降法
Holm(1979)提出了一种一致更有效的逐步下降(step-down)方法:将 值从小到大排序 ,从 开始依次检验 ;在第一次不满足时停止,拒绝此前所有假设。Holm 方法在保持 FWER 强控制的同时,统计功效始终不低于 Bonferroni 校正。
Šidák 校正
假设检验独立时,,令其 解得单次水平 。当 较大时 ,与 Bonferroni 接近但略宽松。Šidák 校正严格依赖于独立性假设,在正依赖情形下仍可保持 FWER 控制,但在一般依赖结构下不保证。
Hochberg 逐步上升法
Hochberg(1988)的逐步上升(step-up)方法从最大 值开始:当 时,拒绝 及其后所有假设。该方法比 Holm 方法更具功效,但要求检验统计量具有非负回归依赖结构(如多元正态的正相关),在一般依赖下不保证 FWER 控制。
与错误发现率(FDR)的关系
FWER 控制的目标是避免"任何一个"假阳性,这在验证性研究中(如临床试验的注册主要终点)至关重要。然而,在探索性研究和高维数据(如基因组学)中,FWER 过于严格。Benjamini 和 Hochberg(1995)提出错误发现率(false discovery rate, FDR),定义为 ,其中 为被拒绝的总数。FDR 控制允许少量假阳性,换取更高的统计功效,更适合大规模筛查场景。
应用与局限
FWER 控制广泛应用于临床试验的多重终点分析、方差分析中的事后两两比较(Tukey HSD、Scheffé 方法)、以及心理学与教育研究的量表维度分析。其主要局限在于保守性:当 较大且信号稀疏时,FWER 控制会导致大量真阳性无法被检出。实践中,研究者在验证性分析中使用 FWER,在探索性分析中倾向于使用 FDR 或更宽松的方法,以在错误保护与发现能力之间取得平衡。