# 曼-惠特尼U检验 (Mann-Whitney U test)
曼-惠特尼U检验 (Mann-Whitney U test),亦称为 曼-惠特尼-威尔科克森检验 (Mann-Whitney-Wilcoxon, MWW) 或 威尔科克森秩和检验 (Wilcoxon Rank-Sum test),是一种应用广泛的{{{非参数检验}}}方法。它主要用于检验两个独立的样本是否来自具有相同分布的总体。由于该检验不要求数据服从{{{正态分布}}},因此当{{{独立样本t检验}}}的{{{正态性}}}假设不被满足时,曼-惠特尼U检验是一种非常重要的替代方法。
该检验的核心思想不是比较两组样本的均值,而是比较它们的{{{中位数}}}或整体分布。它适用于因变量是{{{序数数据}}}或不符合正态分布假设的{{{连续数据}}}的情况。
## 核心原理与假设
### 假设检验的陈述
曼-惠特尼U检验的{{{假设检验}}}可以从两个层面进行陈述:
1. 最广义的假设(关于分布): * {{{原假设}}} ($H_0$): 两个样本来自的总体具有完全相同的分布。 * {{{备择假设}}} ($H_1$): 两个样本来自的总体分布不同。这可以是一个双侧检验。对于单侧检验,假设会是其中一个总体的分布随机性地大于(或小于)另一个。
2. 较狭义的假设(关于中位数): 在增加一个额外假设——即两个总体的分布形状和离散程度相同时——该检验可以被用来比较中位数: * {{{原假设}}} ($H_0$): 两个样本总体的中位数相等。 * {{{备择假设}}} ($H_1$): 两个样本总体的中位数不相等。
在实践中,研究者常常使用该检验来判断中位数是否存在差异,但必须清楚这背后隐藏了分布形状相似的假设。
### 基本假设
进行曼-惠特尼U检验需要满足以下几个前提条件:
1. 样本独立性:两个样本必须是相互独立的,并且每个样本内部的观测值也应相互独立。 2. 数据类型:因变量至少是{{{序数数据}}}(Ordinal Data),即数据可以被排序。当然,它也适用于{{{区间数据}}} (Interval Data) 和{{{比率数据}}} (Ratio Data)。 3. 分布形状(仅当比较中位数时):如上所述,若要将检验结果解释为中位数的差异,则需要假设两个总体的分布具有相似的形状。如果分布形状显著不同,则拒绝原假设只能说明两个总体的分布存在差异,而不能明确归因于中位数的不同。
## 检验步骤详解
假设我们有两个独立的样本,样本1的大小为 $n_1$,样本2的大小为 $n_2$。检验过程如下:
第一步:合并与排序
将两个样本的所有观测值(共 $N = n_1 + n_2$ 个)放在一起,从低到高进行排序。为每一个观测值分配一个{{{秩}}}(Rank)。最小的值秩为1,第二小的值秩为2,依此类推。
* 处理结 (Ties):如果存在数值相同的观测值(即“结”),则将它们排名的平均值作为各自的秩。例如,如果第5、6、7位的数值相同,则它们的秩都是 $(5+6+7)/3 = 6$。
第二步:计算秩和 (Sum of Ranks)
将排序后的秩根据其原始分组归还给两个样本。然后,分别计算每个样本的秩之和,记为 $R_1$ 和 $R_2$。 一个简单的验证方法是:$R_1 + R_2$ 必须等于所有秩的总和,即从1到 $N$ 的所有整数之和,其值为 $\frac{N(N+1)}{2}$。
第三步:计算U统计量
为每个样本计算其对应的 U 统计量。U 统计量的公式为: $$ U_1 = R_1 - \frac{n_1(n_1+1)}{2} $$ $$ U_2 = R_2 - \frac{n_2(n_2+1)}{2} $$
$U_1$ 和 $U_2$ 在直观上表示了样本间观测值交叉比较的次数。例如,$U_1$ 表示样本1中的每个观测值大于样本2中观测值的次数的总和。 这两个U值之间存在一个便捷的关系:$U_1 + U_2 = n_1 n_2$。因此,在计算出一个U值后,另一个可以通过该公式直接得出。
检验所用的最终统计量 U 是 $U_1$ 和 $U_2$ 中较小的那一个: $$ U = \min(U_1, U_2) $$
第四步:决策
决策过程依据样本量的大小分为两种情况:
* 小样本情况 (通常当 $n_1, n_2 < 20$ 时): 将计算出的 $U$ 值与在特定{{{显著性水平}}} $\alpha$ 下的曼-惠特尼U检验临界值表中的 $U_{\text{critical}}$ 进行比较。如果 $U \le U_{\text{critical}}$,则拒绝原假设 $H_0$。注意,与许多其他检验(如t检验)不同,U值越小,表明两组差异越显著。
* 大样本情况 (通常当 $n_1, n_2 \ge 20$ 时): 当样本量足够大时,U统计量的分布近似于一个{{{正态分布}}}。该正态分布的期望(均值)$\mu_U$ 和标准差 $\sigma_U$ 为: $$ \mu_U = \frac{n_1 n_2}{2} $$ $$ \sigma_U = \sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}} $$
如果数据中存在大量的结,标准差需要进行修正: $$ \sigma_U = \sqrt{\left(\frac{n_1 n_2}{N(N-1)}\right) \left(\frac{N^3 - N}{12} - \sum_{i=1}^{k} \frac{t_i^3 - t_i}{12}\right)} $$ 其中 $N=n_1+n_2$,$k$ 是结的组数,$t_i$ 是第 $i$ 组结中相同值的个数。
然后,将U统计量标准化为Z分数: $$ Z = \frac{U - \mu_U}{\sigma_U} $$ 最后,通过比较Z值与标准正态分布的临界值(例如,在 $\alpha=0.05$ 的双侧检验中,临界值为 $\pm 1.96$),或直接计算{{{p-value}}}来做出统计决策。如果 $|Z|$ 大于临界值或 p-value 小于 $\alpha$,则拒绝原假设 $H_0$。
## 应用实例
假设一个教育研究者想比较两种不同教学方法(方法A和方法B)对学生期末考试成绩(满分100)的影响。随机选择10名学生,5名使用方法A,5名使用方法B。由于样本量小且无法保证成绩呈正态分布,研究者决定使用曼-惠特尼U检验。
* 方法A的成绩 ($n_1=5$): {78, 85, 88, 92, 95} * 方法B的成绩 ($n_2=5$): {65, 72, 79, 81, 84}
第一步:合并与排序 合并数据:{65, 72, 78, 79, 81, 84, 85, 88, 92, 95} 分配秩次: | 值 | 65 | 72 | 78 | 79 | 81 | 84 | 85 | 88 | 92 | 95 | |---|---|---|---|---|---|---|---|---|---|---| | 原始组 | B | B | A | B | B | B | A | A | A | A | | 秩 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
第二步:计算秩和 * 方法A的秩和 $R_1 = 3 + 7 + 8 + 9 + 10 = 37$ * 方法B的秩和 $R_2 = 1 + 2 + 4 + 5 + 6 = 18$ * 验证: $R_1 + R_2 = 37 + 18 = 55$。总秩和为 $\frac{10(10+1)}{2} = 55$,计算正确。
第三步:计算U统计量 * $U_1 = R_1 - \frac{n_1(n_1+1)}{2} = 37 - \frac{5(6)}{2} = 37 - 15 = 22$ * $U_2 = R_2 - \frac{n_2(n_2+1)}{2} = 18 - \frac{5(6)}{2} = 18 - 15 = 3$ * 验证: $U_1 + U_2 = 22 + 3 = 25$。$n_1 n_2 = 5 \times 5 = 25$,计算正确。
检验统计量 $U = \min(U_1, U_2) = 3$。
第四步:决策 假设我们进行双侧检验,{{{显著性水平}}} $\alpha=0.05$。查阅曼-惠特尼U检验临界值表,对于 $n_1=5, n_2=5$,临界值 $U_{\text{critical}}$ 为2。 因为我们计算出的 $U=3$ 大于临界值 $U_{\text{critical}}=2$,所以我们 不能拒绝原假设 $H_0$。 结论是:在 $\alpha=0.05$ 的水平上,没有足够的统计证据表明两种教学方法的学生成绩分布存在显著差异。
## 效应量
仅仅报告统计显著性是不够的,我们还需要度量差异的大小,即{{{效应量}}} (Effect Size)。对于曼-惠特尼U检验,一个常用的效应量是 秩双列相关系数 (Rank-biserial correlation),记为 $r$。当使用大样本Z近似时,其计算公式非常简单: $$ r = \frac{Z}{\sqrt{N}} $$ 其中 $N = n_1 + n_2$。$r$ 的取值范围是-1到+1,其绝对值大小可参考Cohen的通用标准:0.1 (小效应), 0.3 (中等效应), 0.5 (大效应)。
## 与独立样本t检验的比较
| 特征 | 曼-惠特尼U检验 | {{{独立样本t检验}}} | | :--- | :--- | :--- | | 数据类型 | {{{序数数据}}} 或更高 | {{{区间数据}}} 或更高 | | 核心假设 | 样本独立 | 样本独立、{{{正态性}}}、{{{方差齐性}}} | | 比较对象 | 中位数或整体分布 | 均值 | | {{{统计功效}}} | 如果t检验的假设满足,其功效通常略低于t检验(约为t检验的95.5%)。但若t检验的假设被严重违反,其功效可能远高于t检验。 | 当其所有假设都满足时,是比较两组均值最强大的参数检验方法。 | | 应用场景 | 数据有明显偏态、存在异常值、样本量很小或数据本身是序数等级时。 | 数据近似正态分布,且希望比较两组的算术平均值时。 |
总结来说,曼-惠特尼U检验是一个强大且灵活的工具,它为比较两组独立样本提供了不依赖于正态分布假设的稳健方法。