ARTICLE

Mann-Whitney U检验

Mann-Whitney U检验 Mann-Whitney U检验（也称 Mann–Whitney–Wilcoxon 检验或 Wilcoxon 秩和检验）是一种非参数统计方法，用于比较两个独立样本是否来自同一总体分布。与经典的两样本 t 检验不同，该检验不要求数据服从正态分布，也不要求两组方差齐性，仅需观测值之间独立且具有可比的有序尺度。它由 Henry M

浏览 0 更新 2026-01-15

Mann-Whitney U检验

Mann-Whitney U检验（也称 Mann–Whitney–Wilcoxon 检验或 Wilcoxon 秩和检验）是一种非参数统计方法，用于比较两个独立样本是否来自同一总体分布。与经典的两样本 t 检验不同，该检验不要求数据服从正态分布，也不要求两组方差齐性，仅需观测值之间独立且具有可比的有序尺度。它由 Henry Mann 和 Donald Whitney 于 1947 年提出，Frank Wilcoxon 于 1945 年独立提出等价形式。

Mann-Whitney U检验的零假设 ( $H_0$ ) 为：两组样本来自同一分布（更精确地，随机从 X 组取一个观测和从 Y 组取一个观测， $P(X > Y) = P(Y > X) = 0.5$ ）。备择假设 ( $H_1$ ) 可以是双侧（两分布不同）、左侧（X 倾向于小于 Y）或右侧（X 倾向于大于 Y）。当零假设成立时，U 统计量服从已知的抽样分布，据此可计算p值以做出统计推断。

数学定义与计算

设两组独立样本分别为 $X_1, X_2, \ldots, X_{n_1}$ 和 $Y_1, Y_2, \ldots, Y_{n_2}$ 。将所有 $N = n_1 + n_2$ 个观测值混合后从小到大排序，赋予秩次 $1, 2, \ldots, N$ ；遇相等值（ties）时赋予平均秩。令 $R_1$ 为 X 组样本的秩和，则 U 统计量定义为：

U_1 = n_1 n_2 + \frac{n_1(n_1 + 1)}{2} - R_1

U_2 = n_1 n_2 + \frac{n_2(n_2 + 1)}{2} - R_2

其中 $R_1 + R_2 = N(N+1)/2$ ，且 $U_1 + U_2 = n_1 n_2$ 。检验统计量通常取 $U = \min(U_1, U_2)$ 用于双侧检验，或依备择假设方向选用相应的 $U_1$ 或 $U_2$ 。

U 统计量的直观含义为：对于所有配对 $(X_i, Y_j)$ ，计数 X 大于 Y 的次数。每个配对中 $X > Y$ 贡献 1， $X = Y$ 贡献 0.5。因此 U 是两组间优势关系的汇总度量。

Wilcoxon秩和检验的等价性

Mann-Whitney U检验与 Wilcoxon 秩和检验在数学上完全等价，U 与秩和 $R_1$ 之间仅差一个常数：

U_1 = R_1 - \frac{n_1(n_1 + 1)}{2}

因此两种检验产生相同的 p 值。两者统一称为 Mann–Whitney–Wilcoxon (MWW) 检验。在实际应用中，统计软件通常同时报告 U 值、秩和以及标准化后的 Z 值。

正态近似与大样本性质

对于小样本（通常 $n_1, n_2 < 10$ ），U 统计量在零假设下的精确分布可通过组合数学计算，临界值可查专用表格。当样本量增大时，由中心极限定理，U 的零分布迅速逼近正态分布：

Z = \frac{U - \mu_U}{\sigma_U} \overset{\text{approx}}{\sim} N(0, 1)

其中期望和方差（无相等值时）为：

\mu_U = \frac{n_1 n_2}{2}, \quad \sigma_U^2 = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12}

存在相等值时需对方差进行校正。设 $g$ 为不同值的个数，第 $j$ 组相等值包含 $t_j$ 个观测，则校正后方差为：

\sigma_U^2 = \frac{n_1 n_2}{12} \left[ (N+1) - \frac{\sum_{j=1}^{g} (t_j^3 - t_j)}{N(N-1)} \right]

假设与适用条件

Mann-Whitney U检验的关键假设包括：①两组样本彼此独立，抽取过程互不干扰；②组内观测独立同分布；③变量至少为有序尺度，即观测值可排序；④零假设下，两组分布的形状相同但允许位置偏移。最后一条是检验的位置偏移模型假设——若两组分布的形状差异显著（如一方严重偏态而另一方对称），即便中位数相同，Mann-Whitney 检验仍可能显著，此时结果应解释为分布差异而非中位数差异。

与 t 检验的比较

Mann-Whitney U检验与两样本 t 检验服务于相似的研究目的，但效率特征不同。当数据确为正态分布时，t 检验的统计功效略高——Mann-Whitney 检验的渐近相对效率 (ARE) 约为 $3/\pi \approx 0.955$ ，即损失约 4.5\% 的效率。然而，当数据偏离正态（如重尾或含异常值），Mann-Whitney 检验的功效可远超 t 检验，ARE 甚至可无限大于 1。因此，对于明显偏态、存在极端值或仅有序数测量的数据，Mann-Whitney 检验是更稳健可靠的选择。但对于样本量极小（每组 < 5）的情形，t 检验虽有正态假设，Mann-Whitney 检验的精确临界值也极度粗糙，两种检验均需谨慎解读。

经济学与社会科学中的应用

在经济学实证研究中，Mann-Whitney U检验广泛应用于比较两组独立观测的分布差异：

政策评估与实验经济学：比较实验组与对照组的产出变量（如收入、生产率）是否存在系统性差异，当样本量有限且数据分布未知时尤为适用。
劳动经济学：比较不同性别、地区或教育水平的工资分布差异，薪资数据通常右偏严重，正态假设难以满足。
发展经济学：随机对照试验 (RCT) 中分析基线协变量在处理组与对照组间的平衡性；对于非正态的计数或评分结果，检验干预效应。
行为经济学：比较不同激励方案下的选择行为差异，因行为数据常为离散有序变量（如 Likert 量表评分）。

效应量

与任何假设检验一样，统计显著并不等同于实际重要。Mann-Whitney U检验的常用效应量指标包括：

秩双列相关系数 (rank-biserial correlation)： $r = 1 - \frac{2U}{n_1 n_2}$ ，取值范围 $[-1, 1]$ ，度量两组秩次的标准化差异。 $|r| \geq 0.5$ 通常视为大效应。
概率优势 (probability of superiority, PS)： $\hat{p} = U / (n_1 n_2)$ ，表示从 X 组随机抽取的观测大于从 Y 组随机抽取的观测的概率。 $\hat{p} = 0.5$ 对应零假设， $\hat{p} > 0.7$ 或 $\hat{p} < 0.3$ 表明实质性差异。
Cohen's d 的非参数类比：基于秩次的标准化均值差，可通过 $r$ 近似转换。

报告效应量已日益成为实证研究的规范要求——它使读者能够在统计显著性之外判断结果的实际含义，也有利于后续荟萃分析 (meta-analysis) 中的效应合并。

局限与注意事项

尽管 Mann-Whitney U检验具有广泛的适用性，其结论的解读需格外审慎。首先，该检验并非严格的中位数检验——仅在两组分布形状相同的前提下，显著结果可解释为中位数差异；否则显著仅意味着分布不同，可能源于形状、离散度或其他高阶特征。其次，存在大量相等值时，方差校正虽有效，但检验功效有所下降，应考虑使用精确排列检验或Brunner-Munzel检验等替代方法。再者，Mann-Whitney 检验无法处理配对设计，对于配对或重复测量数据应使用Wilcoxon符号秩检验。最后，该检验对异方差性的不敏感仅限于位置偏移模型；若两组方差差异悬殊且分布形状不同，检验的第一类错误率可能偏离名义水平。此外，当样本量极不平衡（如 $n_1 \ll n_2$ ）时，检验对分布形状差异的敏感性显著降低，建议使用排列检验或 bootstrap 方法进行稳健推断。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。