ARTICLE
事后检验 (Post-Hoc Tests)
事后检验 (Post-Hoc Tests) 事后检验(Post-Hoc Tests),又称事后多重比较(Post-Hoc Multiple Comparisons),是在方差分析(ANOVA)拒绝原假设后,为进一步确定哪些组之间存在显著差异而进行的一系列统计检验程序。当方差分析的F检验表明至少有一组均值不同于其他组时,F检验本身并不指明差异的具体位置;事后检
事后检验 (Post-Hoc Tests)
事后检验(Post-Hoc Tests),又称事后多重比较(Post-Hoc Multiple Comparisons),是在方差分析(ANOVA)拒绝原假设后,为进一步确定哪些组之间存在显著差异而进行的一系列统计检验程序。当方差分析的F检验表明至少有一组均值不同于其他组时,F检验本身并不指明差异的具体位置;事后检验正是为了解决这一"差异定位"问题而设计的。与事先对比(Planned Contrasts)不同,事后检验是在数据观察之后进行的探索性分析,因此必须控制族系错误率(Family-Wise Error Rate, FWER),即进行多次比较时犯至少一次第一类错误的概率。
核心问题:多重比较与错误率膨胀
假设对 个组进行两两比较,共需进行 次独立t检验。若每次检验的显著性水平为 ,则在所有原假设为真的情况下,至少犯一次第一类错误的概率为:
当 时,,取 ,FWER ≈ 0.401,即约有40\%的概率至少出现一次假阳性。这一膨胀现象意味着若不对显著性水平进行调整,随着比较次数增加,错误发现真实差异的风险急剧上升。事后检验的核心任务就是在保持统计检验力的同时,将FWER控制在名义水平 之内。
主要事后检验方法
Tukey诚实显著差异检验 (Tukey's HSD)
Tukey检验由John Tukey于1953年提出,专门设计用于所有可能的成对比较,且各组样本量相等或近似相等时表现最优。该方法基于学生化极差分布(Studentized Range Distribution),构造统计量:
其中MSE为方差分析的均方误差。若两组均值之差的绝对值超过诚实显著差异值(HSD),则判定为显著。Tukey HSD是最广泛使用的成对比较方法,兼顾了检验力和FWER控制。
Bonferroni校正
Bonferroni校正是最保守也是最简便的方法:将显著性水平直接除以比较次数,即使用 作为每次检验的标准。等价地,可将原始p值乘以 得到调整后的p值。该方法的优势在于不依赖任何分布假设,适用于任意类型的检验;缺点在于随比较次数增加,检验力下降明显,容易导致第二类错误增加,错过真实差异。
Scheffé方法
Scheffé检验适用于所有可能的对比(Contrast),不仅限于成对比较,包括复杂的线性组合。其临界值基于F分布,是最保守的多重比较方法之一。当研究者希望在查看数据后检验任意复杂假设时,Scheffé方法是理论上最严格的保护手段,但代价是检验力低于Tukey HSD。
其他常用方法
Sidak校正基于 调整显著性水平,略优于Bonferroni且在检验间独立时精确控制FWER。Dunnett检验专门用于将多个处理组分别与一个对照组比较,使用多变量t分布。Fisher最小显著差异法(Fisher's LSD)仅在F检验显著后进行成对比较而不调整显著性水平,此方法对FWER控制较弱,在实践中存在争议。Holm-Bonferroni方法是一种逐步拒绝程序(Step-Down Procedure),比原始Bonferroni具有更高的检验力,同时对FWER提供强控制。Benjamini-Hochberg过程则转而控制错误发现率(False Discovery Rate, FDR),适用于高维数据如基因组学中的大规模多重比较。
方法选择与应用指南
选择事后检验方法时需权衡四个因素:比较的类型与数量、样本量是否均衡、对方差齐性的假设强度以及对保守程度的偏好。若仅进行所有成对比较且样本量均衡,Tukey HSD是首选;若有对照组需要多重比较,Dunnett方法更具功率;若检验大量假设且更关注发现真实效应而非严格避免假阳性,可考虑FDR控制方法如Benjamini-Hochberg;若探索性较强、涉及复杂对比,Scheffé方法提供理论完备性。
在实际应用流程中,研究者应首先完成方差分析并确认F检验显著,然后明确比较的目的是探索性还是验证性,据此选择合适的事后检验方法。报告结果时应同时呈现原始p值、调整后p值以及置信区间,并明确说明所采用的校正方法及其适用条件。在计量经济学和政策评估中,事后检验的思想也被推广至处理异质性效应分析,如通过分组回归后进行多重比较校正以识别哪些子群体对处理有显著反应。