ARTICLE
克鲁斯卡尔-沃利斯检验
克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis Test) 克鲁斯卡尔-沃利斯检验(Kruskal-Wallis test),也称克鲁斯卡尔-沃利斯 H 检验或单因素秩和检验,是一种非参数统计方法,用于检验三个或三个以上独立样本是否来自同一分布。它是曼-惠特尼 U 检验在多组比较中的推广,也是单因素方差分析(ANOVA)的非参数替代方案。该检验由 W
克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis Test)
克鲁斯卡尔-沃利斯检验(Kruskal-Wallis test),也称克鲁斯卡尔-沃利斯 H 检验或单因素秩和检验,是一种非参数统计方法,用于检验三个或三个以上独立样本是否来自同一分布。它是曼-惠特尼 U 检验在多组比较中的推广,也是单因素方差分析(ANOVA)的非参数替代方案。该检验由 William Kruskal 和 W. Allen Wallis 于 1952 年提出。
适用场景
当单因素方差分析的前提假设不满足时,克鲁斯卡尔-沃利斯检验是最常用的替代方法。具体适用条件:
- 因变量是连续变量或至少是定序尺度数据。
- 自变量(分组变量)包含三个或三个以上独立类别。
- 各组观测相互独立(不适用于重复测量设计)。
- 各组分布形状大致相同(检验对形状差异不敏感,但严格假定同形状)。
本质上,该检验首先将所有观测值混合排序,赋予每个观测值一个秩次(最小的赋秩 1,最大的赋秩 ),然后比较各组秩和的差异。因为秩只反映相对顺序而不依赖具体数值大小,该方法对异常值、偏态分布和方差异质性具有天然的稳健性。值得注意的是,克鲁斯卡尔-沃利斯检验不要求各组样本量相等,对不平衡设计同样适用。
检验假设
- 零假设 :所有 个总体的分布相同(各组中位数相等)。
- 备择假设 :至少有一个总体的分布与其他不同(至少有一组中位数不同)。
与 ANOVA 不同,它不检验均值相等,而是检验随机优势(stochastic dominance):即从一组中随机抽取的观测值是否系统地大于或小于另一组。
检验统计量 H
克鲁斯卡尔-沃利斯检验的核心思想是:如果零假设成立,各组观测值来自同一分布,那么各组秩的平均值应大致相等,均接近总平均秩 。检验统计量 H 正是基于各组秩和偏离期望值的加权平方和构建的。
将全部 个观测值从小至大排序并赋予秩 1 至 ,遇平局时赋予平均秩。记第 组的样本量为 ,其秩和为 。H 统计量定义为:
该公式形式直观:若各组秩和差异极小,则 ,H 趋近于 0;组间秩和差异越大,H 越大。
平局修正
存在平局时,使用修正因子:
其中 为第 组平局中相同观测值的个数。修正使 H 略微增大,在平局较多时不应忽略。
分布与决策
当每组样本量均 或总样本量较大时,H 近似服从自由度为 的卡方分布:
若 ,则在显著性水平 下拒绝零假设,认为至少有一组与其他不同。小样本时可查 Kruskal-Wallis 精确临界值表。
事后多重比较
克鲁斯卡尔-沃利斯检验是全局检验(omnibus test),显著的结果仅表明"至少有一组不同",不能直接判断哪两组间存在差异。常用的后续分析方法包括:
- 邓恩检验 (Dunn's test):基于秩和的两两比较,使用邦弗朗尼校正或其他多重比较校正控制族系错误率。检验统计量为: \[ z = \frac{\bar{R}_i - \bar{R}_j}{\sqrt{\frac{N(N+1)}{12} \left( \frac{1}{n_i} + \frac{1}{n_j} \right)}} \]
- Dwass-Steel-Critchlow-Fligner 方法:基于联合秩的两两比较,控制实验族错误率。
- Conover 检验:使用秩而非原始数据的参数化比较,统计效力通常更高。
与单因素方差分析的比较
- 检验对象:ANOVA 检验均值差异,Kruskal-Wallis 检验分布差异(主要检测位置偏移)。
- 假设强度:ANOVA 要求正态性和方差齐性,Kruskal-Wallis 仅要求独立抽样和同形状分布。
- 统计效力:当 ANOVA 假设满足时,ANOVA 的统计效力略高(渐进相对效率约 0.955);当假设不满足时,Kruskal-Wallis 明显优于 ANOVA,尤其是对长尾分布和存在异常值的情形。
- 数据尺度:ANOVA 要求定距尺度,Kruskal-Wallis 可处理定序尺度数据。
效应量
仅报告 p 值不足以衡量差异的实际重要性,尤其是在大样本下微小的差异也可能统计显著。常用的效应量指标为 (基于 H 统计量的方差解释比例):
其含义类似于 ANOVA 中的效应量 ,表示组间差异所能解释的秩变异比例,取值范围通常在 0 到 1 之间。Cohen 建议的参考标准为:0.01-0.06 为小效应,0.06-0.14 为中效应,大于 0.14 为大效应。此外,当各组分布形状一致时,也可使用ε² (epsilon-squared) 作为替代效应量,其计算公式为 ,解释更为直观。
计算示例
假设比较三种教学方法对学生成绩的影响,每组 6 名学生:
- 将全部 18 个成绩统一排序赋秩。
- 计算每组的秩和 。
- 代入 H 公式计算统计量。
- 若 ( 的临界值),则在 下拒绝零假设。
- 拒绝后执行 Dunn 事后检验确定具体差异来源。
注意事项与局限性
- 分布形状假设:克鲁斯卡尔-沃利斯检验严格假定各组分布形状相同(仅位置参数可能不同)。若各组分布形状迥异(如一组严重右偏而另一组对称),显著的 H 可能反映偏度差异或离散度差异而非位置差异,需结合可视化手段(如并排箱线图或小提琴图)审慎解读。
- 与曼-惠特尼检验的关系:对于两个独立样本的比较,克鲁斯卡尔-沃利斯检验退化为曼-惠特尼 U 检验,两者结果等价。
- 重复测量设计:若数据来自同一受试者在不同条件下的重复测量,应使用弗里德曼检验(Friedman test)而非 Kruskal-Wallis 检验。后者假定样本独立,忽视重复测量结构会导致假阳性率膨胀。
- 大样本下的敏感性:样本量极大时,即使微小的组间差异也可能统计显著,此时应更重视效应量而非仅关注 p 值。
- 与 ANOVA 的选择策略:在实际应用中,建议先对数据进行正态性检验(如夏皮罗-威尔克检验)和方差齐性检验(如莱文检验)。若假设合理,优先使用 ANOVA;若严重违反正态性或存在明显异常值,则转而使用克鲁斯卡尔-沃利斯检验。当样本量较小时,即使正态性检验不显著,也应谨慎使用 ANOVA,因为小样本下正态性检验的功效较低。
克鲁斯卡尔-沃利斯检验是社会科学、医学和生态学中应用最广泛的非参数检验之一。因其对数据分布要求宽松、对异常值稳健,在处理偏态、异方差或定序数据时是 ANOVA 的理想替代方案。在报告结果时,通常应同时给出 H 统计量、自由度、p 值、效应量以及事后比较的具体发现,以确保结论的完整性和可重复性。