ARTICLE

Wilcoxon秩和检验

Wilcoxon秩和检验 (Wilcoxon Rank-Sum Test) Wilcoxon秩和检验（Wilcoxon Rank-Sum Test），又称Mann-Whitney U检验（Mann–Whitney U Test），是一种广泛应用于非参数统计学的假设检验方法。它用于比较两组独立样本是否来自具有相同中位数的总体，是两独立样本t检验（two-sam

浏览 4 更新 2025-10-26

Wilcoxon秩和检验 (Wilcoxon Rank-Sum Test)

Wilcoxon秩和检验（Wilcoxon Rank-Sum Test），又称Mann-Whitney U检验（Mann–Whitney U Test），是一种广泛应用于非参数统计学的假设检验方法。它用于比较两组独立样本是否来自具有相同中位数的总体，是两独立样本t检验（two-sample t-test）的一种强有力的非参数替代方案。该检验由美国统计学家Frank Wilcoxon于1945年在一篇题为《Individual Comparisons by Ranking Methods》的论文中首次提出。随后，Henry Mann和Donald Whitney于1947年在《Annals of Mathematical Statistics》上发表了推广版本（即Mann-Whitney U检验），将其适用范围扩展至不等样本量的情形，并给出了完整的精确分布表。如今，这两个名称在统计学文献中常常混用，所指的实质上是同一方法。

与参数检验不同，Wilcoxon秩和检验不要求数据服从正态分布，也不要求两组数据的方差相等，仅需满足较少的假设条件。这使得它在处理非正态数据、有序分类变量或含有异常值的数据时具有显著优势。

检验的基本逻辑与假设

Wilcoxon秩和检验的核心思想是：如果两组样本来自同一个分布，那么将两组数据合并排序后，各组的秩和（rank sum）应当大致成比例于其样本量；反之，如果一组系统的秩次偏高或偏低，则表明两组存在差异。

基本假设

该检验建立在如下假定之上：

独立性：两组样本各自独立，且组内观测也相互独立。
有序性：被测量的变量至少是有序尺度（ordinal scale）的，即观测值之间可以比较大小。
分布形状相似：在两组的分布形状大致相同的前提下，检验的原假设是两组的中位数相等；若分布形状不同，则检验退化为检验两组的分布是否相同。

原假设与备择假设

原假设 $H_0$ ：两组样本所来自的总体分布相同（或中位数相等）。
备择假设 $H_1$ ：两组样本所来自的总体分布不同（或中位数不等，可单侧也可双侧）。

检验步骤与统计量

1. 合并与排序

将两组样本（设第一组样本量为 $n_1$ ，第二组样本量为 $n_2$ ）的所有观测值合并，按从小到大的顺序排列，并赋予每个观测值一个秩次（rank）。最小的观测值秩次为1，次小为2，依此类推。出现相同数值时，取平均秩次（即秩次平局的处理）。例如，若第3和第4位的观测值相等，则两者均赋予秩次3.5。

2. 计算秩和

分别计算两组样本的秩和（rank sum）。通常选择样本量较小的一组，将其秩和记作 $W$ （Wilcoxon统计量）。若两组样本量相等，则任选一组即可。

3. W统计量的分布

在零假设成立且无平局的情况下， $W$ 的精确分布是可以推导出来的。 $W$ 的取值范围介于最小可能值（ $\frac{n_1(n_1+1)}{2}$ ）与最大可能值（ $n_1(n_1+n_2+1) - \frac{n_1(n_1+1)}{2}$ ）之间。其期望值和方差分别为：

E(W) = \frac{n_1(n_1 + n_2 + 1)}{2}

Var(W) = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12}

当 $n_1$ 和 $n_2$ 均较大时（通常认为两者均大于10）， $W$ 统计量近似服从正态分布，可使用Z检验进行推断：

Z = \frac{W - E(W)}{\sqrt{Var(W)}}

4. 与Mann-Whitney U统计量的关系

Mann-Whitney U统计量与Wilcoxon秩和统计量之间存在严格的代数对应关系。U统计量的定义是：将第一组中的每一个观测值与第二组中的每一个观测值进行比较，计算第一组观测值大于第二组观测值的次数总和，即：

U_1 = \sum_{i=1}^{n_1} \sum_{j=1}^{n_2} \mathbf{1}(X_i > Y_j)

其中 $\mathbf{1}(\cdot)$ 为示性函数。二者的转换公式为：

U_1 = W - \frac{n_1(n_1 + 1)}{2}, \quad U_2 = n_1 n_2 - U_1

且有关系 $W = U_1 + \frac{n_1(n_1+1)}{2}$ 。因此，这两个检验在实质上是等价的，差别仅在于计算公式的不同。大多数统计软件报告的是U统计量及其对应的p-value。

应用示例

假设我们想比较一种新药与安慰剂对疼痛评分的影响。两组各有8名受试者，疼痛评分（1–10分，分数越高越痛）数据如下：

新药组（ $n_1=8$ ）：3, 5, 2, 4, 6, 3, 4, 5
安慰剂组（ $n_2=8$ ）：7, 8, 6, 9, 7, 8, 9, 10

将所有16个数据合并排序赋秩。新药组的秩和 $W$ 较小（因为数值偏小）。计算 $W$ 并与临界值比较。若 $W$ 小于临界值或相应的 p-value 低于显著性水平 $\alpha=0.05$ ，则拒绝原假设，认为新药显著降低了疼痛评分。

在实际应用中，研究者多借助统计软件完成计算。例如，在R语言中可使用\texttt{wilcox.test()}函数，在Python中使用\texttt{scipy.stats.mannwhitneyu()}，在SPSS中则通过"Analyze → Nonparametric Tests → Legacy Dialogs → 2 Independent Samples"菜单路径完成。

效应量度量

当Wilcoxon秩和检验拒绝原假设后，研究者常常需要报告效应量以衡量差异的大小。常用的效应量指标包括：

秩双列相关系数（Rank-Biserial Correlation, $r$ ）： $r = \frac{U_1}{n_1 n_2} - \left(1 - \frac{U_1}{n_1 n_2}\right) = \frac{2U_1}{n_1 n_2} - 1$ ，取值范围为 $[-1, 1]$ 。
Common Language效应量（CLES）： $CL = \frac{U_1}{n_1 n_2}$ ，表示随机抽取的一组观测值大于另一组观测值的概率。

优势与局限性

优势

不依赖正态性假定：适用于偏态分布、有序分类变量或小样本数据。
对异常值稳健：秩次将极端值的影响限制在末位秩次，避免了异常值对结果的过度干扰。
适用性广：只需数据具备有序性，可用于许多参数检验不适用的场合。

局限性

统计功效较低：当数据确实满足正态分布和方差齐性时，Wilcoxon秩和检验的检验功效（power）低于t检验，即更容易犯第二类错误。
对分布形状敏感：如果两组的分布形状差异较大（如一组的方差远大于另一组），检验结果可能无法简单解释为中位数的差异。
信息损失：将原始数据转换为秩次的过程丢失了数据之间的实际距离信息，可能会导致部分统计效率的降低。

与其他非参数检验的关系

Wilcoxon秩和检验与许多其他非参数方法有着紧密联系：

Wilcoxon符号秩检验（Wilcoxon Signed-Rank Test）：这是针对配对样本或单样本中位数检验的非参数方法，与秩和检验仅一字之差，但适用于配对设计数据而非独立两组数据。
Kruskal-Wallis检验：当需要比较三组或更多独立样本时，Kruskal-Wallis检验是Wilcoxon秩和检验的直接推广，相当于单因素方差分析的非参数版本。
Jonckheere-Terpstra检验：当各组之间存在先验的顺序趋势假设时，该检验提供了比Kruskal-Wallis检验更强的检验功效。

这些方法共同构成了非参数统计中基于秩次的检验体系，各自适用于不同的研究设计类型。

总结

Wilcoxon秩和检验作为非参数统计中最经典的检验方法之一，以其假设条件宽松、计算简单和稳健性好的特点，在医学研究、社会科学、心理学、生态学等诸多领域得到了极为广泛的应用。当数据无法满足参数检验的前提假定时，它提供了一种可靠且易于解释的替代方案，是每一位数据分析人员应掌握的核心工具之一。理解该检验的数学原理、适用条件与局限，有助于在实际研究中选择最恰当的统计方法，从而得出可靠的结论。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。