ARTICLE
Tukey's HSD检验
Tukey's HSD 检验 (Tukey's Honestly Significant Difference Test) Tukey's HSD 检验(Tukey's Honestly Significant Difference Test,全称为图基诚实显著性差异检验),又称Tukey 多重比较检验 或 Tukey-Kramer 方法,是由美国统计学家
Tukey's HSD 检验 (Tukey's Honestly Significant Difference Test)
Tukey's HSD 检验(Tukey's Honestly Significant Difference Test,全称为图基诚实显著性差异检验),又称Tukey 多重比较检验 或 Tukey-Kramer 方法,是由美国统计学家 约翰·图基(John Tukey)于 1949 年提出的一种 多重比较(Multiple Comparisons)事后检验方法。该方法专门用于在 方差分析(ANOVA)获得显著结果后,对所有可能的两两组间均值差异进行同时检验,以精确确定哪些组别之间存在统计上的显著差异。Tukey's HSD 的核心优势在于能够在控制 家庭wise 错误率(Familywise Error Rate, FWER)的同时,提供比其他事后检验方法更高的统计检验力,因此被广泛视为平衡保守性与敏感性的黄金标准。
背景与统计问题
在 单因素方差分析(One-way ANOVA)中,研究者首先检验的全局零假设为所有组的总体均值相等:。若 ANOVA 的 检验显著(),研究者仅能得知至少有一对组间均值存在差异,但无法获知究竟是哪些组别之间存在差异。要回答后一个问题,需对全部 个可能的组对进行两两比较。
如果对每个组对分别进行独立的 t 检验,随着组数 的增加,比较次数呈组合数增长,第一类错误(Type I Error)会急剧膨胀。具体而言,当各组间真实无差异时,若在显著性水平 下进行 次独立 t 检验,至少犯一次第一类错误的概率为 。当 时(),该概率已上升至约 40\%;当 时(),概率逼近 90\%。显然,若不加以校正,研究者将极大概率将随机波动误判为真实差异。Tukey's HSD 正是为应对这一多重比较问题(Multiple Comparison Problem)而设计。
检验原理与临界值
Tukey's HSD 的核心思想是使用学生化极差分布(Studentized Range Distribution)而非 t 分布作为检验统计量的参考分布。该分布刻画了在零假设(所有组均值相等)下, 个独立样本均值中最大值与最小值之差(即极差)的抽样分布,从而将被比较组对的个数纳入统计量的临界值计算中。
Tukey's HSD 检验的统计量 定义为:
其中 和 是所比较两个组的样本均值(较大者减较小者), 为标准误。在各组样本量相等(称为平衡设计)的情况下,标准误的计算公式为:
其中 是 ANOVA 中的组内均方(Mean Square Within,即误差均方 MSE), 是每组样本量。
计算出的 统计量与学生化极差分布的临界值 进行比较。该临界值取决于三个参数:显著性水平 、组数 (即进行比较的组别总数)以及误差自由度 。若 ,则在 水平上拒绝该组对均值相等的零假设。
在实际应用中,研究者通常直接计算最小显著差异(Honestly Significant Difference, HSD)——即两组均值差异达到何种程度才算显著:
当任意两组的均值之差的绝对值 时,即可判定该组对在 水平上存在显著差异。这种阈值化的处理方式使得检验结果可以直观地在均值比较图中呈现。
Tukey-Kramer 修正
原始的 Tukey's HSD 假设各组样本量相等(平衡设计)。然而,在真实的实验研究中,各组样本量不相等(非平衡设计)是更为常见的情况。为此,Clyde Kramer 在 1956 年提出了 Tukey-Kramer 修正,将标准误的计算调整为:
其中 和 分别为第 组和第 组的样本量。该修正使得 Tukey 方法能够适用于非平衡设计,且经验研究表明即使在样本量差异较大的情况下,Tukey-Kramer 方法仍能较好地控制 FWER。现代统计软件(如 R 的 \texttt{TukeyHSD()} 函数、SPSS 的 Post Hoc 选项、Python 的 \texttt{statsmodels} 库)默认使用的正是这一修正版本。
Tukey's HSD 与其他事后检验方法的比较
多重比较事后检验的方法众多,研究者需根据研究目的和数据特征做出选择。
Bonferroni 校正是最为保守的方法,它将显著性水平除以比较次数()。虽然能严格控 FWER,但过于保守,在组数较多时检验力显著下降。Scheffé 检验适用于任意型式的对比(contrast)而非仅限于成对比较,但代价是对所有成对比较而言过于保守。Dunnett 检验专门用于"多个处理组与一个对照组"的比较情境,若仅限于此类比较,其检验力优于 Tukey's HSD。Fisher 的 LSD(Least Significant Difference)未对多重比较进行任何校正,仅适用于 ANOVA 显著后且组数极少()的受限场景,否则 FWER 将严重失控。
相比之下,Tukey's HSD 在所有可能的两两比较情境中提供了最佳的平衡:它同时控制 FWER,且检验力低于 Bonferroni 但显著高于 Scheffé。当研究目标是对所有组别进行全面两两比较时,Tukey's HSD 是首选方法。
使用条件与注意事项
Tukey's HSD 的适用依赖于若干统计假设。第一,各组观测独立且来自 正态分布总体,即 ANOVA 的正态性假设(Normality Assumption)。当样本量足够大时,根据 中心极限定理,这一条件可适当放宽。第二,各组总体方差相等(方差齐性,Homoscedasticity),这可通过 Levene 检验 或 Bartlett 检验 进行验证。若方差不齐,可考虑使用 Games-Howell 检验,它不假设方差齐性且能控制 FWER。第三,Tukey's HSD 仅适用于成对比较,不适用于更复杂的对比形式(如线性组合或多项式对比),后者需使用 Scheffé 方法。
在实践中,Tukey's HSD 的结果通常以置信区间的形式呈现——除了给出 p 值外,Tukey 方法会报告每对均值之差的调整后置信区间。若该区间不包含零,则表明差异在多重比较调整后仍然显著。置信区间提供了效应大小的信息,比单纯依赖 p 值更有助于结果的实质性解读。
应用实例
假设一项教育学研究比较了三种教学方法(传统讲授法 、在线学习法 、混合教学法 )对学生期末考试成绩的影响。ANOVA 结果显示组间差异显著(),具体各组均值分别为:,,,组内均方 ,误差自由度 。
查学生化极差分布表得 (近似值)。计算 HSD:
比较各组均值差异:
- → 显著(在线法优于传统法)
- → 显著(混合法优于传统法)
- → 不显著(混合法与在线法无显著差异)
结论:在控制 FWER 的前提下,混合教学法和在线学习法的成绩均显著高于传统讲授法,但两者之间无显著差异。