ARTICLE

克鲁斯卡尔-沃利斯检验

克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis Test) 克鲁斯卡尔-沃利斯检验（Kruskal-Wallis test），也称克鲁斯卡尔-沃利斯 H 检验或单因素秩和检验，是一种非参数统计方法，用于检验三个或三个以上独立样本是否来自同一分布。它是曼-惠特尼 U 检验在多组比较中的推广，也是单因素方差分析（ANOVA）的非参数替代方案。该检验由 W

浏览 5 更新 2025-07-15

克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis Test)

克鲁斯卡尔-沃利斯检验（Kruskal-Wallis test），也称克鲁斯卡尔-沃利斯 H 检验或单因素秩和检验，是一种非参数统计方法，用于检验三个或三个以上独立样本是否来自同一分布。它是曼-惠特尼 U 检验在多组比较中的推广，也是单因素方差分析（ANOVA）的非参数替代方案。该检验由 William Kruskal 和 W. Allen Wallis 于 1952 年提出。

适用场景

当单因素方差分析的前提假设不满足时，克鲁斯卡尔-沃利斯检验是最常用的替代方法。具体适用条件：

因变量是连续变量或至少是定序尺度数据。
自变量（分组变量）包含三个或三个以上独立类别。
各组观测相互独立（不适用于重复测量设计）。
各组分布形状大致相同（检验对形状差异不敏感，但严格假定同形状）。

本质上，该检验首先将所有观测值混合排序，赋予每个观测值一个秩次（最小的赋秩 1，最大的赋秩 $N$ ），然后比较各组秩和的差异。因为秩只反映相对顺序而不依赖具体数值大小，该方法对异常值、偏态分布和方差异质性具有天然的稳健性。值得注意的是，克鲁斯卡尔-沃利斯检验不要求各组样本量相等，对不平衡设计同样适用。

检验假设

零假设 $H_0$ ：所有 $k$ 个总体的分布相同（各组中位数相等）。
备择假设 $H_1$ ：至少有一个总体的分布与其他不同（至少有一组中位数不同）。

与 ANOVA 不同，它不检验均值相等，而是检验随机优势（stochastic dominance）：即从一组中随机抽取的观测值是否系统地大于或小于另一组。

检验统计量 H

克鲁斯卡尔-沃利斯检验的核心思想是：如果零假设成立，各组观测值来自同一分布，那么各组秩的平均值应大致相等，均接近总平均秩 $(N+1)/2$ 。检验统计量 H 正是基于各组秩和偏离期望值的加权平方和构建的。

将全部 $N$ 个观测值从小至大排序并赋予秩 1 至 $N$ ，遇平局时赋予平均秩。记第 $j$ 组的样本量为 $n_j$ ，其秩和为 $R_j$ 。H 统计量定义为：

H = \frac{12}{N(N+1)} \sum_{j=1}^{k} \frac{R_j^2}{n_j} - 3(N+1)

该公式形式直观：若各组秩和差异极小，则 $R_j / n_j \approx (N+1)/2$ ，H 趋近于 0；组间秩和差异越大，H 越大。

平局修正

存在平局时，使用修正因子：

H_{\text{adj}} = \frac{H}{1 - \frac{\sum_{i}(t_i^3 - t_i)}{N^3 - N}}

其中 $t_i$ 为第 $i$ 组平局中相同观测值的个数。修正使 H 略微增大，在平局较多时不应忽略。

分布与决策

当每组样本量均 $\geq 5$ 或总样本量较大时，H 近似服从自由度为 $k-1$ 的卡方分布：

H \sim \chi^2(k-1)

若 $H > \chi^2_{\alpha}(k-1)$ ，则在显著性水平 $\alpha$ 下拒绝零假设，认为至少有一组与其他不同。小样本时可查 Kruskal-Wallis 精确临界值表。

事后多重比较

克鲁斯卡尔-沃利斯检验是全局检验（omnibus test），显著的结果仅表明"至少有一组不同"，不能直接判断哪两组间存在差异。常用的后续分析方法包括：

邓恩检验 (Dunn's test)：基于秩和的两两比较，使用邦弗朗尼校正或其他多重比较校正控制族系错误率。检验统计量为： \[ z = \frac{\bar{R}_i - \bar{R}_j}{\sqrt{\frac{N(N+1)}{12} \left( \frac{1}{n_i} + \frac{1}{n_j} \right)}} \]
Dwass-Steel-Critchlow-Fligner 方法：基于联合秩的两两比较，控制实验族错误率。
Conover 检验：使用秩而非原始数据的参数化比较，统计效力通常更高。

与单因素方差分析的比较

检验对象：ANOVA 检验均值差异，Kruskal-Wallis 检验分布差异（主要检测位置偏移）。
假设强度：ANOVA 要求正态性和方差齐性，Kruskal-Wallis 仅要求独立抽样和同形状分布。
统计效力：当 ANOVA 假设满足时，ANOVA 的统计效力略高（渐进相对效率约 0.955）；当假设不满足时，Kruskal-Wallis 明显优于 ANOVA，尤其是对长尾分布和存在异常值的情形。
数据尺度：ANOVA 要求定距尺度，Kruskal-Wallis 可处理定序尺度数据。

效应量

仅报告 p 值不足以衡量差异的实际重要性，尤其是在大样本下微小的差异也可能统计显著。常用的效应量指标为 $\eta^2_H$ （基于 H 统计量的方差解释比例）：

\eta^2_H = \frac{H - k + 1}{N - k}

其含义类似于 ANOVA 中的效应量 $\eta^2$ ，表示组间差异所能解释的秩变异比例，取值范围通常在 0 到 1 之间。Cohen 建议的参考标准为：0.01-0.06 为小效应，0.06-0.14 为中效应，大于 0.14 为大效应。此外，当各组分布形状一致时，也可使用ε² (epsilon-squared) 作为替代效应量，其计算公式为 $\varepsilon^2 = H / (N-1)$ ，解释更为直观。

计算示例

假设比较三种教学方法对学生成绩的影响，每组 6 名学生：

将全部 18 个成绩统一排序赋秩。
计算每组的秩和 $R_1, R_2, R_3$ 。
代入 H 公式计算统计量。
若 $H > 5.991$ （ $\chi^2_{0.05}(2)$ 的临界值），则在 $\alpha = 0.05$ 下拒绝零假设。
拒绝后执行 Dunn 事后检验确定具体差异来源。

注意事项与局限性

分布形状假设：克鲁斯卡尔-沃利斯检验严格假定各组分布形状相同（仅位置参数可能不同）。若各组分布形状迥异（如一组严重右偏而另一组对称），显著的 H 可能反映偏度差异或离散度差异而非位置差异，需结合可视化手段（如并排箱线图或小提琴图）审慎解读。
与曼-惠特尼检验的关系：对于两个独立样本的比较，克鲁斯卡尔-沃利斯检验退化为曼-惠特尼 U 检验，两者结果等价。
重复测量设计：若数据来自同一受试者在不同条件下的重复测量，应使用弗里德曼检验（Friedman test）而非 Kruskal-Wallis 检验。后者假定样本独立，忽视重复测量结构会导致假阳性率膨胀。
大样本下的敏感性：样本量极大时，即使微小的组间差异也可能统计显著，此时应更重视效应量而非仅关注 p 值。
与 ANOVA 的选择策略：在实际应用中，建议先对数据进行正态性检验（如夏皮罗-威尔克检验）和方差齐性检验（如莱文检验）。若假设合理，优先使用 ANOVA；若严重违反正态性或存在明显异常值，则转而使用克鲁斯卡尔-沃利斯检验。当样本量较小时，即使正态性检验不显著，也应谨慎使用 ANOVA，因为小样本下正态性检验的功效较低。

克鲁斯卡尔-沃利斯检验是社会科学、医学和生态学中应用最广泛的非参数检验之一。因其对数据分布要求宽松、对异常值稳健，在处理偏态、异方差或定序数据时是 ANOVA 的理想替代方案。在报告结果时，通常应同时给出 H 统计量、自由度、p 值、效应量以及事后比较的具体发现，以确保结论的完整性和可重复性。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。