ARTICLE
Mann-Whitney U 检验
Mann-Whitney U 检验 (Mann-Whitney U Test) Mann-Whitney U 检验是非参数统计中检验两个独立样本是否来自同一总体的经典方法,由 Henry B. Mann 与 Donald R. Whitney 于 1947 年在 The Annals of Mathematical Statistics 上正式提出。该检验的
Mann-Whitney U 检验 (Mann-Whitney U Test)
Mann-Whitney U 检验是非参数统计中检验两个独立样本是否来自同一总体的经典方法,由 Henry B. Mann 与 Donald R. Whitney 于 1947 年在 The Annals of Mathematical Statistics 上正式提出。该检验的零假设为:从两个总体中随机各抽取一个观测值,,即不存在系统性的大小偏向。其核心优势在于不依赖正态分布假定,仅要求观测值至少为有序尺度数据,且两组样本彼此独立。
历史背景与理论渊源
秩检验的思想可追溯至 20 世纪初。1914 年,德国统计学家 Gustav Deuchler 首次提出基于秩的两样本位置比较方法,但其工作未引起广泛关注。1945 年,Frank Wilcoxon 在 Biometrics Bulletin 上发表秩和检验方法,以简洁的计算表格替代繁复的积分运算,迅速在化学与生物实验中推广。1947 年,Henry Mann 与其学生 Donald Whitney 在 The Annals of Mathematical Statistics 上以 U 统计量的形式重新表述该检验,并严格推导了零假设下 U 的精确分布与正态近似条件。Mann–Whitney 的贡献在于将检验纳入 Hoeffding 1948 年建立的 U 统计量一般理论框架,使其具备了坚实的概率论基础。此后,该检验被统称为 Mann–Whitney–Wilcoxon 检验,成为非参数统计的奠基性方法之一。
检验统计量的构造逻辑
将两组样本 与 混合后从小到大排序,赋予秩 。若零假设成立,两组秩应均匀交织;若 X 组倾向于取较小值,则其秩和 将系统性偏低。Mann 与 Whitney 将这一直觉形式化为 U 统计量:
其中 恒成立。 的直观含义为:取所有 个跨组配对 ,计数其中 的配对数(相等值各计 0.5)。因此 U 本质上是两组之间"优势关系"的汇总度量,这一解释使检验结果具有直观的可交流性。
精确分布与正态近似
在零假设下, 的分布关于 对称。对于小样本(),临界值可通过组合枚举精确计算,历史上 Mann 与 Whitney 的原论文即附有详尽的临界值表。随着样本量增大,由中心极限定理,标准化 U 渐近服从标准正态分布:
当数据中存在相等值(ties)时,需对方差进行校正。令 为去重后的不同取值个数,第 组相等值包含 个观测,则校正方差为:
该校正源于秩的方差在有结时缩小的事实——相等值共享平均秩,减少了秩的信息量。
与 Wilcoxon 秩和检验的等价性
Frank Wilcoxon 于 1945 年独立提出的秩和检验在数学上与 Mann-Whitney U 检验完全等价。两者通过恒等式 互换算,p 值恒等。因此文献中常统称为 Mann–Whitney–Wilcoxon (MWW) 检验。理解这一等价性有助于统一解读统计软件输出:R 的 \texttt{wilcox.test}、Python 的 \texttt{scipy.stats.mannwhitneyu} 和 SPSS 的 Mann-Whitney U 均指向同一检验。
假设条件与适用边界
Mann-Whitney U 检验的适用依赖于四项核心假设:
- 两组样本独立抽取,互不干扰。
- 组内观测独立同分布。
- 变量至少为有序尺度,观测值可排序。
- 在位置偏移模型下,两组分布形状相同——零假设成立时两分布重合,备择假设下仅发生位置平移。
第四条假设常被忽视却至关重要。若两组分布形状差异显著(如一组对称而另一组严重右偏),即便中位数相同,检验也可能拒绝零假设——此时拒绝反映的是分布形状的差异而非位置的差异。因此,报告 Mann-Whitney 检验结果时应始终辅以分布形态的探索性描述,避免将显著结果简单等同于"中位数不同"。
与两样本 t 检验的效率比较
在数据确为正态分布时,Mann-Whitney 检验相对于两样本 t 检验的 Pitman 渐近相对效率 (ARE) 为 ,损失不足 5\% 的功效。然而当数据偏离正态——尤其是重尾分布或含异常值时——Mann-Whitney 检验的功效可远超 t 检验,ARE 无上界。这一"以微小效率代价换取大幅稳健性增益"的特性,使 Mann-Whitney 检验在实证经济学中备受青睐,尤其适用于收入、支出等典型右偏变量的组间比较。
效应量:超越 p 值
统计显著不等同于实际重要。Mann-Whitney 检验的两种互补效应量指标为:
- 概率优势 :从 X 组随机抽取的观测大于 Y 组的概率。 对应零假设; 或 通常视为中小效应, 为大效应。
- 秩双列相关系数 :取值 ,符号指示方向,绝对值度量效应大小。 分别对应小、中、大效应的经验阈值。
报告效应量已成为 APA、AEA 等学术写作规范的明确要求,也为后续荟萃分析中的效应合并提供了标准化输入。
经济学实证研究中的应用场景
Mann-Whitney U 检验在经济学各分支中均有广泛应用:
- 劳动经济学:比较性别工资差异。由于工资分布典型右偏,Mann-Whitney 检验比 t 检验更适合判断两组工资是否存在系统性差异。
- 发展经济学:随机对照试验中,检验干预组与对照组的非正态结局变量(如家庭支出、儿童营养评分)是否存在分布差异。
- 行为经济学:比较不同实验处理下的 Likert 量表评分或选择频率,此类有序离散数据天然适用秩检验。
- 政策评估:分析政策实施前后两个独立横截面的收入分布变化,特别是当政策影响分布的不同分位点而非仅均值时。
常见误区与局限
Mann-Whitney U 检验不是"中位数检验"——这是最常见的误解。只有满足位置偏移假设时,显著结果方可解释为中位数差异;在一般情况下,它检验的是"随机优势"这一更宽泛的概念。此外,该检验对相等值敏感,当数据存在大量结(如 Likert 量表仅有 5 或 7 个级别)时,方差校正虽有效,检验功效仍受影响,此时可考虑Brunner-Munzel检验或精确排列检验。对于配对设计,应使用Wilcoxon符号秩检验而非 Mann-Whitney U 检验。最后,当样本量极度不平衡()且分布形状相异时,第一类错误率可能偏离名义水平,建议辅以 bootstrap 或排列检验进行敏感性分析。