ARTICLE

曼-惠特尼U检验

曼-惠特尼U检验 (Mann-Whitney U test) 曼-惠特尼U检验 (Mann-Whitney U test)，亦称为曼-惠特尼-威尔科克森检验 (Mann-Whitney-Wilcoxon test, MWW) 或威尔科克森秩和检验 (Wilcoxon Rank-Sum test)，是一种应用广泛的非参数检验方法。该检验用于判断两个独立样本

浏览 51 更新 2025-10-26

曼-惠特尼U检验 (Mann-Whitney U test)

曼-惠特尼U检验 (Mann-Whitney U test)，亦称为 曼-惠特尼-威尔科克森检验 (Mann-Whitney-Wilcoxon test, MWW) 或 威尔科克森秩和检验 (Wilcoxon Rank-Sum test)，是一种应用广泛的非参数检验方法。该检验用于判断两个独立样本是否来自具有相同分布的总体。由于它不要求数据服从正态分布，当独立样本t检验的正态性假设无法满足时，曼-惠特尼U检验是最为重要的非参数替代方法之一。该检验由 Henry Mann 和 Donald Whitney 于1947年提出，其理论基础可追溯至 Frank Wilcoxon 于1945年发表的秩和检验思想。

该检验的核心思想是依据秩次（Rank）而非原始数值进行分析。它将两组数据混合后统一排序，通过比较秩次的分布来判断两组是否存在系统性差异。这意味着它不依赖于总体分布的具体形态，因而具有稳健性。该检验适用于因变量为序数数据或不符合正态分布假设的连续数据的情形，比较的是两组样本的中位数或整体分布位置，而非算术均值。

核心原理与假设

假设检验的陈述

曼-惠特尼U检验的假设检验可从两个层面加以理解。

第一层面，也是最广义的假设，关注分布本身：原假设 $H_0$ 为两个样本所来自的总体具有完全相同的分布；备择假设 $H_1$ 为两个总体的分布不同（双侧检验），或一个总体的观测值随机性地大于另一个总体（单侧检验）。

第二层面，关于中位数的假设：在额外假定两个总体的分布形状和离散程度相同的前提下，该检验可用于比较中位数。此时 $H_0$ 为两总体中位数相等， $H_1$ 为中位数不等。实践中研究者常据此判断中位数是否存在差异，但须注意这隐含了分布形状相似的假设。若形状差异显著，拒绝原假设仅表明分布位置不同，不能直接归因于中位数变化。

基本假设

进行该检验需满足三个前提条件。第一，样本独立性——两组样本相互独立，且每组内部的观测值亦相互独立，这是所有经典统计检验的共同要求。第二，数据类型——因变量至少为序数数据，即数据可以被有意义地排序，自然亦适用于区间数据和比率数据。第三，若要将检验结果解释为中位数差异，还需假设两总体的分布形状相似，否则拒绝原假设仅表明分布存在差异，无法明确归因于中位数不同。

检验步骤详解

设有两个独立样本，样本1大小为 $n_1$ ，样本2大小为 $n_2$ ，总样本量 $N = n_1 + n_2$ 。

第一步：合并与排序。将两组所有观测值混合后，按从小到大排序，为每个值分配秩（最小者秩为1，次小者秩为2，依此类推）。若存在数值相同的观测值（即出现结），则取这些位置秩的均值作为共同秩。例如，若第5、6、7位的数值完全相同，则每者的秩均为 $(5+6+7)/3 = 6$ 。结的存在会降低检验的精确性，大样本时需对标准差进行校正。

第二步：计算秩和。将排序后的秩按原始分组归还，分别计算每组的秩和 $R_1$ 和 $R_2$ 。可利用恒等式 $R_1 + R_2 = N(N+1)/2$ 进行验证。

第三步：计算U统计量。U统计量的计算公式为：

U_1 = R_1 - \frac{n_1(n_1+1)}{2},\quad U_2 = R_2 - \frac{n_2(n_2+1)}{2}

其满足 $U_1 + U_2 = n_1 n_2$ 。 $U_1$ 的直观含义是：样本1中每个观测值大于样本2中观测值的次数总和。最终检验统计量取 $U = \min(U_1, U_2)$ 。

第四步：决策。决策过程依样本量分为两种情况。小样本情形（通常 $n_1, n_2 < 20$ ）时，查曼-惠特尼U检验临界值表，若 $U \le U_{\text{critical}}$ 则拒绝 $H_0$ 。需要特别注意的是，与多数检验统计量不同，此处U值越小意味着两组差异越显著。大样本情形（ $n_1, n_2 \ge 20$ ）时，U统计量近似服从正态分布，其期望为 $\mu_U = n_1 n_2 / 2$ ，标准差为 $\sigma_U = \sqrt{n_1 n_2 (n_1 + n_2 + 1) / 12}$ 。若数据中存在大量结，标准差需调整为：

\sigma_U = \sqrt{\frac{n_1 n_2}{N(N-1)} \left( \frac{N^3 - N}{12} - \sum_{i=1}^{k} \frac{t_i^3 - t_i}{12} \right)}

其中 $k$ 为结的组数， $t_i$ 为第 $i$ 组结中相同值的个数。随后计算 $Z = (U - \mu_U) / \sigma_U$ ，与标准正态分布的临界值（如 $\alpha=0.05$ 双侧检验下 $\pm 1.96$ ）进行比较，或直接计算p-值以做出统计决策。

应用实例

某教育研究者欲比较两种教学方法A与B对学生期末考试成绩的影响。A组（ $n_1=5$ ）成绩为 \{78, 85, 88, 92, 95\}，B组（ $n_2=5$ ）成绩为 \{65, 72, 79, 81, 84\}。由于样本量较小且成绩的正态性难以保证，研究者决定采用曼-惠特尼U检验。

合并数据并排序后，A组秩和为 $R_1 = 3+7+8+9+10 = 37$ ，B组秩和为 $R_2 = 1+2+4+5+6 = 18$ 。代入公式得 $U_1 = 37 - 15 = 22$ ， $U_2 = 18 - 15 = 3$ ，故 $U = \min(22, 3) = 3$ 。在 $\alpha = 0.05$ 的双侧检验下，查临界值表得 $U_{\text{critical}} = 2$ 。由于 $U = 3 > 2$ ，不能拒绝原假设 $H_0$ ，即尚无充分统计证据表明两种教学方法的效果存在显著差异。

效应量

报告统计显著性的同时应度量效应的大小。对于曼-惠特尼U检验，常用效应量为秩双列相关系数 $r = Z / \sqrt{N}$ （其中 $N = n_1 + n_2$ ），取值范围为 $[-1, 1]$ 。按Cohen提出的标准， $|r| = 0.1$ 为小效应，0.3 为中等效应，0.5 为大效应。

与独立样本t检验的比较

\begin{tabular}{lcc} \hline 特征 \& 曼-惠特尼U检验 \& 独立样本t检验 \\ \hline 数据类型 \& 序数数据或更高 \& 区间数据或更高 \\ 核心假设 \& 样本独立 \& 样本独立、正态性、方差齐性 \\ 比较对象 \& 中位数或整体分布 \& 均值 \\ 相对效率 \& t检验假设满足时功效约为其95.5\% \& 假设满足时最优 \\ 应用场景 \& 偏态数据、异常值、小样本、序数数据 \& 正态分布、比较均值 \\ \hline \end{tabular}

当t检验的正态性或方差齐性假设被严重违反时，曼-惠特尼U检验的统计功效可能远高于t检验。它尤其适用于数据呈偏态分布、存在异常值、样本量较小或数据本身为序数等级的场景，是比较两组独立样本的稳健而灵活的非参数检验工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。