ARTICLE

曼-惠特尼U统计量

曼-惠特尼U统计量概述曼-惠特尼U统计量（Mann-Whitney U statistic）是曼-惠特尼检验（Mann-Whitney U test，亦称 Wilcoxon 秩和检验）的核心统计量。该检验由 Henry Mann 和 Donald Whitney 于1947年提出，是统计学中最常用的非参数检验方法之一，用于判断两个独立样本是否来自同一总体

浏览 0 更新 2025-12-11

曼-惠特尼U统计量

概述

曼-惠特尼U统计量（Mann-Whitney U statistic）是曼-惠特尼检验（Mann-Whitney U test，亦称 Wilcoxon 秩和检验）的核心统计量。该检验由 Henry Mann 和 Donald Whitney 于1947年提出，是统计学中最常用的非参数检验方法之一，用于判断两个独立样本是否来自同一总体分布。作为独立样本 t 检验的非参数替代，曼-惠特尼U检验不要求数据满足正态性假设，仅依赖于样本观测值的相对排序。

定义与基本思想

设从总体 X 中抽取容量为 m 的独立样本 $X_1, X_2, \ldots, X_m$ ，从总体 Y 中抽取容量为 n 的独立样本 $Y_1, Y_2, \ldots, Y_n$ 。曼-惠特尼检验关心的是：两个总体是否存在位置偏移（location shift），即是否满足 $F_X(t) = F_Y(t + \Delta)$ 其中 $\Delta \neq 0$ 。

曼-惠特尼U统计量的基本思想是：将两个样本合并后按升序排列，然后比较每个 X 观测值在所有 Y 观测值之前的次数。若 X 总体普遍大于 Y 总体，则 X 的秩较高，反之亦然。

U 统计量的计算

曼-惠特尼U统计量有两种等价的定义方式。

基于成对比较

U 统计量定义为所有成对比较中 X 观测值大于 Y 观测值的次数：

U = \sum_{i=1}^{m} \sum_{j=1}^{n} \mathbf{1}(Y_j < X_i)

其中 $\mathbf{1}(\cdot)$ 为示性函数。直观上，U 统计量衡量的是从两个样本中随机各取一个观测值时，X 观测值大于 Y 观测值的概率。

基于秩和

利用秩和计算更为简便。令 $R_X$ 为 X 样本中所有观测值在合并样本中的秩和，则：

U = mn + \frac{m(m+1)}{2} - R_X

类似地， $U' = mn - U$ 对应 Y 样本的相应统计量。检验时通常取 $U$ 与 $U'$ 中的较小值作为检验统计量。

示例

设有两组数据：

组A（X）：2, 4, 6（m=3）
组B（Y）：1, 3, 5（n=3）

合并排序：1(Y), 2(X), 3(Y), 4(X), 5(Y), 6(X)。X 的秩为 2, 4, 6，秩和为 $R_X = 12$ 。

则 $U = 3 \times 3 + \frac{3 \times 4}{2} - 12 = 9 + 6 - 12 = 3$ 。直观验证：成对比较中 $(2,1), (4,1), (4,3), (6,1), (6,3), (6,5)$ 共 6 个 X > Y 的情况，即 U=6？等一下，这里需要重新计算。

成对比较计算：所有 X 与 Y 的组合共 9 对。 $X_i$ > $Y_j$ 的情况有：(2,1), (4,1), (4,3), (6,1), (6,3), (6,5) 共 6 对，所以 U=6。

而 $R_X=12$ 代入公式： $U = 9 + 6 - 12 = 3$ 。这里不一致是因为公式 $U = mn + \frac{m(m+1)}{2} - R_X$ 定义的是 Wilcoxon 秩和统计量的转换，实际上该公式给出的是另一种形式的 U 统计量。正确的对应关系是：两个公式给出的 U 是不同的定义方式，分别对应 Mann-Whitney U 和 Wilcoxon 秩和 W 的转换。在标准教科书中，Mann-Whitney U 定义为 $U = R_X - \frac{m(m+1)}{2}$ ，即 $U = 12 - 6 = 6$ ，与成对比较结果一致。

因此，正确的公式应为：

U_X = R_X - \frac{m(m+1)}{2}

U_Y = R_Y - \frac{n(n+1)}{2}

且 $U_X + U_Y = mn$ 。检验时取 $U = \min(U_X, U_Y)$ 。

假设

曼-惠特尼U检验的假设条件包括：

独立性：两组样本各自独立，组内观测值也相互独立。
有序尺度：数据至少为有序变量（ordinal scale），即可以比较大小。
分布形状相似（位置偏移假设）：两总体的分布形态大致相同，仅在位置上存在偏移。严格来说，原假设为 $H_0: F_X(t) = F_Y(t)$ ，备择假设为 $H_1: F_X(t) = F_Y(t + \Delta)$ 且 $\Delta \neq 0$ 。

与 t 检验不同，曼-惠特尼U检验不要求正态性，也不要求方差齐性（尽管严重异方差会影响检验的解释）。

假设检验

原假设与备择假设

双尾检验： $H_0: \Delta = 0$ ， $H_1: \Delta \neq 0$
单尾检验： $H_0: \Delta \leq 0$ ， $H_1: \Delta > 0$ （或反向）

检验步骤

将两组样本合并，按升序排列，赋予秩次（ties 取平均秩）。
计算某一组的秩和 $R$ 。
计算 U 统计量： $U = R - \frac{n(n+1)}{2}$ 。
在大样本下（通常 m,n > 20），U 的抽样分布近似正态分布：

\mu_U = \frac{mn}{2}, \quad \sigma_U = \sqrt{\frac{mn(N+1)}{12}}

其中 $N = m + n$ 。对于存在结（ties）的情况，需要进行连续性校正：

\sigma_U = \sqrt{\frac{mn}{N(N-1)}\left(\frac{N^3-N}{12} - \sum_{k=1}^{K} \frac{t_k^3 - t_k}{12}\right)}

其中 $K$ 为结的组数， $t_k$ 为第 $k$ 组结中观测值的个数。

计算标准正态检验统计量 $z = (U - \mu_U) / \sigma_U$ ，并与临界值比较。

效应量

在曼-惠特尼U检验中，常用的效应量指标包括：

概率优势（Probabilistic Superiority）

\hat{P}(X > Y) = \frac{U}{mn}

该指标直观地表示：从 X 总体中随机抽取一个观测值大于从 Y 总体中随机抽取一个观测值的概率。取值范围为 [0, 1]，0.5 表示两总体无差异。

秩二列相关（Rank-Biserial Correlation）

r_{rb} = 1 - \frac{2U}{mn} = \frac{2U}{mn} - 1

该指标将 U 统计量标准化到 $[-1, 1]$ 区间，正值表示 X 总体倾向于大于 Y 总体。

与其它方法的关系

Wilcoxon 秩和检验

Mann-Whitney U 检验与 Wilcoxon 秩和检验（Wilcoxon rank-sum test）本质上是同一检验，仅在统计量的定义上有细微差别。Wilcoxon 使用秩和 W 作为统计量，而 Mann-Whitney 使用 U 统计量。两者之间存在一一对应关系。

Brunner-Munzel 检验

当两总体分布形状差异较大时，Mann-Whitney U 检验可能无法有效区分位置偏移与尺度差异。Brunner-Munzel 检验（又称广义 Wilcoxon 检验）放松了分布形状相同的假设，适用于更一般的情形。

Kruskal-Wallis 检验

Kruskal-Wallis 检验是 Mann-Whitney U 检验向多组比较的推广，相当于非参数版本的方差分析（ANOVA）。

应用场景

曼-惠特尼U统计量广泛应用于以下领域：

医学研究：比较治疗组与对照组的疗效（如疼痛评分、生活质量评分等有序数据）。
社会科学：比较不同群体在态度量表、满意度调查等非正态数据上的差异。
心理学：分析认知测试得分等不满足正态性假设的组间比较。
经济学：比较不同政策干预下的非正态分布的经济指标。
生物统计学：分析基因表达数据、生态学计数数据等。

优点与局限

优点

对异常值较为稳健，不依赖正态性假设。
适用于有序分类数据（如 Likert 量表）。
在小样本下依然有效，且渐近相对效率（ARE）相对于 t 检验不低于 0.864。

局限

当两组分布形态差异较大（如方差高度不等）时，检验结果难以解释为位置差异。
面对大量结（ties）时，需要校正公式，检验效力降低。
无法直接估计均值差异的大小；效应量解释不如 Cohen's d 直观。
对于正态分布的数据，由于未充分利用数据信息，检验效力低于 t 检验。

软件实现

R：\texttt{wilcox.test(x, y, paired=FALSE)}
Python (SciPy)：\texttt{scipy.stats.mannwhitneyu(x, y, alternative='two-sided')}
Stata：\texttt{ranksum varname, by(groupvar)}
SPSS：Analyze → Nonparametric Tests → Independent Samples → Mann-Whitney U
MATLAB：\texttt{ranksum(x, y, 'tail', 'both')}

参考文献

Mann, H. B., \& Whitney, D. R. (1947). On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other. The Annals of Mathematical Statistics, 18(1), 50–60.
Wilcoxon, F. (1945). Individual Comparisons by Ranking Methods. Biometrics Bulletin, 1(6), 80–83.
Hollander, M., Wolfe, D. A., \& Chicken, E. (2014). Nonparametric Statistical Methods (3rd ed.). Wiley.
Lehmann, E. L. (2006). Nonparametrics: Statistical Methods Based on Ranks (Rev. ed.). Springer.

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。