ARTICLE
Kruskal-Wallis H检验
Kruskal-Wallis H检验 (Kruskal-Wallis H Test) Kruskal-Wallis H检验是由威廉·克鲁斯卡尔(William Kruskal)和W·艾伦·沃利斯(W. Allen Wallis)于 1952 年提出的非参数统计检验方法,用于判断三个或三个以上独立样本是否来自同一总体分布。该检验是Mann-Whitney U检
Kruskal-Wallis H检验 (Kruskal-Wallis H Test)
Kruskal-Wallis H检验是由威廉·克鲁斯卡尔(William Kruskal)和W·艾伦·沃利斯(W. Allen Wallis)于 1952 年提出的非参数统计检验方法,用于判断三个或三个以上独立样本是否来自同一总体分布。该检验是Mann-Whitney U检验在多组比较情形的推广,也是单因素方差分析(one-way ANOVA)的非参数替代方案。当数据不满足 ANOVA 所要求的正态性和方差齐性假设时,Kruskal-Wallis 检验尤其适用。其检验统计量 基于各样本观测值的秩(rank)构造,在原假设(所有组的分布相同)下近似服从卡方分布。
检验假设与适用场景
Kruskal-Wallis H检验的假设体系如下:
- 原假设 :所有 个总体的分布相同(即各样本来自同一总体)。
- 备择假设 :至少有一个总体的分布与其他总体不同(至少一组的中位数存在显著差异)。
该检验不要求数据服从正态分布,也不要求组间方差齐性,但依赖以下假设:各样本相互独立;因变量至少为次序尺度(ordinal scale);各组分布形状大致相同(若形状不同,检验退化为比较分布的任意差异而非中位数差异)。
在经济学和计量经济学中,Kruskal-Wallis H检验广泛用于比较不同政策干预组的效果、不同市场区域的消费者满意度、不同行业的收益率分布等场景,尤其当样本量较小或数据呈偏态分布时。
检验统计量的构造
步骤一:秩的分配
将所有 个观测值从小到大统一排序,每个观测值获得一个秩 (,),其中秩 1 赋予最小值,秩 赋予最大值。若存在结(ties,即相同数值),则赋予这些观测值的平均秩。
步骤二:计算各组的秩和
令 表示第 组的秩和,则第 组的平均秩为 。
步骤三:计算 H 统计量
H 统计量的标准形式为:
该公式直观地度量了各组平均秩与整体平均秩 之间的加权偏差平方和:若各组的平均秩差异较大, 取值也较大,倾向于拒绝原假设。
结的校正
当存在较多结时,需引入校正因子以提高近似的准确性:
其中 为第 个结组(tie group)中相同观测值的个数。校正后的统计量 较 略大,使得检验更趋于保守。
分布与决策规则
在原假设下,若各组的样本量足够大(通常要求每组 ), 统计量近似服从自由度为 的卡方分布:
给定显著性水平 ,当 时拒绝原假设,其中 为卡方分布的上侧 分位数。等价地,若 ,则拒绝 。
当样本量很小时,应参考 Kruskal-Wallis 检验的精确临界值表(如 Kruskal \& Wallis, 1952 附录中的表格),或使用置换检验方法获得精确的 值。
事后多重比较
Kruskal-Wallis H检验为全局检验(omnibus test),拒绝原假设仅意味着至少存在一对组间差异显著,但无法指出具体哪些组间存在差异。因此,检验显著后通常进行事后多重比较(post-hoc tests),常用的方法包括:
- Dunn 检验:基于各组平均秩的成对比较,使用 Bonferroni 校正或其他多重比较校正(如 Holm 法)调整显著性水平。比较第 组与第 组的 统计量为: \[ z_{ij} = \frac{\bar{R}_i - \bar{R}_j}{\sqrt{\frac{N(N+1)}{12} \left(\frac{1}{n_i} + \frac{1}{n_j}\right)}} \]
- Dwass-Steel-Critchlow-Fligner (DSCF) 方法:基于成对 Wilcoxon 秩和检验并结合学生化极差分布的分位数,控制总体的族系错误率(FWER)。
效应量
除统计显著性外,研究者通常关注实际意义的大小。Kruskal-Wallis H检验的常用效应量指标为 (eta-squared based on H):
的解释参照 Cohen 准则:0.01-0.06 为小效应,0.06-0.14 为中等效应,大于 0.14 为大效应。另一常用指标为Kendall's W(和谐系数),用于度量各组秩的一致性程度。
与相关检验的关系
Kruskal-Wallis H检验在 时等价于双尾Mann-Whitney U检验(或 Wilcoxon 秩和检验),且 (其中 为 Mann-Whitney 检验经连续性校正后的标准化统计量)。因此,H 检验可视为 Mann-Whitney 检验在多组情形的自然推广。
与单因素 ANOVA 相比,Kruskal-Wallis H检验的渐近相对效率(ARE)在数据来自正态分布时约为 (即仅损失约 4.5\% 的效率),而在数据来自重尾分布或污染分布时,H 检验的效率远高于 ANOVA。这一性质——在偏离正态假设时几乎不损失、甚至大幅提高效率——是该非参数方法在实证研究中广受欢迎的重要原因。
计量经济学与实证研究中的应用
在发展经济学中,研究者常使用 Kruskal-Wallis 检验比较不同村庄或地区在干预项目前后的资产指数或消费水平排序是否存在差异。在劳动经济学领域,当工资数据严重右偏时,H 检验用于比较不同教育水平或职业群体的工资分布差异,避免对对数转换后仍不满足正态性假定的依赖。
在行为经济学实验中,因样本量通常较小且响应变量常为 Likert 量表等次序数据,Kruskal-Wallis 检验成为比较不同实验处理的默认方法之一。在金融学中,H 检验可用于比较不同评级的债券收益率分布或不同交易所的日内波动率分布,不依赖于收益率正态性的经典假定。
在统计软件中,Kruskal-Wallis H检验可通过 R 语言的 \texttt{kruskal.test()} 函数、Python 的 \texttt{scipy.stats.kruskal}、Stata 的 \texttt{kwallis} 命令以及 SPSS 的 ``Nonparametric Tests'' 菜单便捷实现。
历史背景与理论发展
Kruskal-Wallis H检验诞生于非参数统计在 20 世纪中叶蓬勃发展的时期。此前,Frank Wilcoxon 于 1945 年提出了两样本的秩和检验(Wilcoxon rank-sum test),Henry Mann 和 Donald Whitney 于 1947 年独立推广了该检验的两样本形式。Kruskal 与 Wallis 在 1952 年的经典论文 ``Use of Ranks in One-Criterion Variance Analysis'' 中,将秩检验的逻辑系统性地推广到多样本情境,发表在Journal of the American Statistical Association上。
该检验的 H 统计量实为各组平均秩与总平均秩之间标准化偏差平方和的加权形式,其构造思路与 ANOVA 的组间平方和有深刻的类比关系:ANOVA 以原始数据的均值偏差衡量组间差异,而 H 检验则以秩的偏差衡量之。这种将秩视为数据单调变换后等价统计量的思想,构成了现代非参数统计的基石之一。此后,Myles Hollander 和 Douglas A. Wolfe 在其经典教材中系统整理了 H 检验的精确分布理论和大样本近似性质,Ronald L. Iman 和 James M. Davenport 则进一步研究了检验的功效函数与渐近相对效率。
假设诊断与注意事项
在实际应用中,研究者应先行评估数据是否满足 H 检验的前提条件。尽管检验不依赖正态性假设,但各组分布形状大致相同的条件需要审慎对待。若各组方差异质性严重(如一组为对称分布而另一组严重偏态),即使检验显著,也难以将结果简单解释为"中位数有差异",而可能是分布形态本身不同所致。此时可借助图形化工具,如并排箱线图(side-by-side boxplots)或小提琴图(violin plots),直观检查各组的分布形态与离散程度。
此外,Kruskal-Wallis H检验假设各样本相互独立,因此不适用于重复测量设计或区组设计。对于相关样本的多组比较,应采用 Friedman检验(Friedman test)作为非参数替代方案。当存在多个分组因素时,可考虑使用基于秩的方差分析模型,如 ART ANOVA(Aligned Rank Transform ANOVA)或比例优势模型(proportional odds model)。