ARTICLE

Mann-Whitney U检验

Mann-Whitney U检验 Mann-Whitney U检验(也称 Mann–Whitney–Wilcoxon 检验或 Wilcoxon 秩和检验)是一种非参数统计方法,用于比较两个独立样本是否来自同一总体分布。与经典的两样本 t 检验不同,该检验不要求数据服从正态分布,也不要求两组方差齐性,仅需观测值之间独立且具有可比的有序尺度。它由 Henry M

浏览 0 更新 2026-01-15

Mann-Whitney U检验

Mann-Whitney U检验(也称 Mann–Whitney–Wilcoxon 检验或 Wilcoxon 秩和检验)是一种非参数统计方法,用于比较两个独立样本是否来自同一总体分布。与经典的两样本 t 检验不同,该检验不要求数据服从正态分布,也不要求两组方差齐性,仅需观测值之间独立且具有可比的有序尺度。它由 Henry Mann 和 Donald Whitney 于 1947 年提出,Frank Wilcoxon 于 1945 年独立提出等价形式。

Mann-Whitney U检验的零假设 (H0H_0) 为:两组样本来自同一分布(更精确地,随机从 X 组取一个观测和从 Y 组取一个观测,P(X>Y)=P(Y>X)=0.5P(X > Y) = P(Y > X) = 0.5)。备择假设 (H1H_1) 可以是双侧(两分布不同)、左侧(X 倾向于小于 Y)或右侧(X 倾向于大于 Y)。当零假设成立时,U 统计量服从已知的抽样分布,据此可计算p值以做出统计推断。

数学定义与计算

设两组独立样本分别为 X1,X2,,Xn1X_1, X_2, \ldots, X_{n_1}Y1,Y2,,Yn2Y_1, Y_2, \ldots, Y_{n_2}。将所有 N=n1+n2N = n_1 + n_2 个观测值混合后从小到大排序,赋予秩次 1,2,,N1, 2, \ldots, N;遇相等值(ties)时赋予平均秩。令 R1R_1 为 X 组样本的秩和,则 U 统计量定义为:

U1=n1n2+n1(n1+1)2R1U_1 = n_1 n_2 + \frac{n_1(n_1 + 1)}{2} - R_1
U2=n1n2+n2(n2+1)2R2U_2 = n_1 n_2 + \frac{n_2(n_2 + 1)}{2} - R_2

其中 R1+R2=N(N+1)/2R_1 + R_2 = N(N+1)/2,且 U1+U2=n1n2U_1 + U_2 = n_1 n_2。检验统计量通常取 U=min(U1,U2)U = \min(U_1, U_2) 用于双侧检验,或依备择假设方向选用相应的 U1U_1U2U_2

U 统计量的直观含义为:对于所有配对 (Xi,Yj)(X_i, Y_j),计数 X 大于 Y 的次数。每个配对中 X>YX > Y 贡献 1,X=YX = Y 贡献 0.5。因此 U 是两组间优势关系的汇总度量。

Wilcoxon秩和检验的等价性

Mann-Whitney U检验与 Wilcoxon 秩和检验在数学上完全等价,U 与秩和 R1R_1 之间仅差一个常数:

U1=R1n1(n1+1)2U_1 = R_1 - \frac{n_1(n_1 + 1)}{2}

因此两种检验产生相同的 p 值。两者统一称为 Mann–Whitney–Wilcoxon (MWW) 检验。在实际应用中,统计软件通常同时报告 U 值、秩和以及标准化后的 Z 值。

正态近似与大样本性质

对于小样本(通常 n1,n2<10n_1, n_2 < 10),U 统计量在零假设下的精确分布可通过组合数学计算,临界值可查专用表格。当样本量增大时,由中心极限定理,U 的零分布迅速逼近正态分布:

Z=UμUσUapproxN(0,1)Z = \frac{U - \mu_U}{\sigma_U} \overset{\text{approx}}{\sim} N(0, 1)

其中期望和方差(无相等值时)为:

μU=n1n22,σU2=n1n2(n1+n2+1)12\mu_U = \frac{n_1 n_2}{2}, \quad \sigma_U^2 = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12}

存在相等值时需对方差进行校正。设 gg 为不同值的个数,第 jj 组相等值包含 tjt_j 个观测,则校正后方差为:

σU2=n1n212[(N+1)j=1g(tj3tj)N(N1)]\sigma_U^2 = \frac{n_1 n_2}{12} \left[ (N+1) - \frac{\sum_{j=1}^{g} (t_j^3 - t_j)}{N(N-1)} \right]

假设与适用条件

Mann-Whitney U检验的关键假设包括:①两组样本彼此独立,抽取过程互不干扰;②组内观测独立同分布;③变量至少为有序尺度,即观测值可排序;④零假设下,两组分布的形状相同但允许位置偏移。最后一条是检验的位置偏移模型假设——若两组分布的形状差异显著(如一方严重偏态而另一方对称),即便中位数相同,Mann-Whitney 检验仍可能显著,此时结果应解释为分布差异而非中位数差异。

与 t 检验的比较

Mann-Whitney U检验与两样本 t 检验服务于相似的研究目的,但效率特征不同。当数据确为正态分布时,t 检验的统计功效略高——Mann-Whitney 检验的渐近相对效率 (ARE) 约为 3/π0.9553/\pi \approx 0.955,即损失约 4.5\% 的效率。然而,当数据偏离正态(如重尾或含异常值),Mann-Whitney 检验的功效可远超 t 检验,ARE 甚至可无限大于 1。因此,对于明显偏态、存在极端值或仅有序数测量的数据,Mann-Whitney 检验是更稳健可靠的选择。但对于样本量极小(每组 < 5)的情形,t 检验虽有正态假设,Mann-Whitney 检验的精确临界值也极度粗糙,两种检验均需谨慎解读。

经济学与社会科学中的应用

经济学实证研究中,Mann-Whitney U检验广泛应用于比较两组独立观测的分布差异:

  • 政策评估与实验经济学:比较实验组与对照组的产出变量(如收入、生产率)是否存在系统性差异,当样本量有限且数据分布未知时尤为适用。
  • 劳动经济学:比较不同性别、地区或教育水平的工资分布差异,薪资数据通常右偏严重,正态假设难以满足。
  • 发展经济学:随机对照试验 (RCT) 中分析基线协变量在处理组与对照组间的平衡性;对于非正态的计数或评分结果,检验干预效应。
  • 行为经济学:比较不同激励方案下的选择行为差异,因行为数据常为离散有序变量(如 Likert 量表评分)。

效应量

与任何假设检验一样,统计显著并不等同于实际重要。Mann-Whitney U检验的常用效应量指标包括:

  • 秩双列相关系数 (rank-biserial correlation):r=12Un1n2r = 1 - \frac{2U}{n_1 n_2},取值范围 [1,1][-1, 1],度量两组秩次的标准化差异。r0.5|r| \geq 0.5 通常视为大效应。
  • 概率优势 (probability of superiority, PS):p^=U/(n1n2)\hat{p} = U / (n_1 n_2),表示从 X 组随机抽取的观测大于从 Y 组随机抽取的观测的概率。p^=0.5\hat{p} = 0.5 对应零假设,p^>0.7\hat{p} > 0.7p^<0.3\hat{p} < 0.3 表明实质性差异。
  • Cohen's d 的非参数类比:基于秩次的标准化均值差,可通过 rr 近似转换。

报告效应量已日益成为实证研究的规范要求——它使读者能够在统计显著性之外判断结果的实际含义,也有利于后续荟萃分析 (meta-analysis) 中的效应合并。

局限与注意事项

尽管 Mann-Whitney U检验具有广泛的适用性,其结论的解读需格外审慎。首先,该检验并非严格的中位数检验——仅在两组分布形状相同的前提下,显著结果可解释为中位数差异;否则显著仅意味着分布不同,可能源于形状、离散度或其他高阶特征。其次,存在大量相等值时,方差校正虽有效,但检验功效有所下降,应考虑使用精确排列检验或Brunner-Munzel检验等替代方法。再者,Mann-Whitney 检验无法处理配对设计,对于配对或重复测量数据应使用Wilcoxon符号秩检验。最后,该检验对异方差性的不敏感仅限于位置偏移模型;若两组方差差异悬殊且分布形状不同,检验的第一类错误率可能偏离名义水平。此外,当样本量极不平衡(如 n1n2n_1 \ll n_2)时,检验对分布形状差异的敏感性显著降低,建议使用排列检验或 bootstrap 方法进行稳健推断。