ARTICLE

曼-惠特尼U统计量

曼-惠特尼U统计量 概述 曼-惠特尼U统计量(Mann-Whitney U statistic)是曼-惠特尼检验(Mann-Whitney U test,亦称 Wilcoxon 秩和检验)的核心统计量。该检验由 Henry Mann 和 Donald Whitney 于1947年提出,是统计学中最常用的非参数检验方法之一,用于判断两个独立样本是否来自同一总体

浏览 0 更新 2025-12-11

曼-惠特尼U统计量

概述

曼-惠特尼U统计量(Mann-Whitney U statistic)是曼-惠特尼检验(Mann-Whitney U test,亦称 Wilcoxon 秩和检验)的核心统计量。该检验由 Henry Mann 和 Donald Whitney 于1947年提出,是统计学中最常用的非参数检验方法之一,用于判断两个独立样本是否来自同一总体分布。作为独立样本 t 检验的非参数替代,曼-惠特尼U检验不要求数据满足正态性假设,仅依赖于样本观测值的相对排序。

定义与基本思想

设从总体 X 中抽取容量为 m 的独立样本 X1,X2,,Xm X_1, X_2, \ldots, X_m ,从总体 Y 中抽取容量为 n 的独立样本 Y1,Y2,,Yn Y_1, Y_2, \ldots, Y_n 。曼-惠特尼检验关心的是:两个总体是否存在位置偏移(location shift),即是否满足 FX(t)=FY(t+Δ) F_X(t) = F_Y(t + \Delta) 其中 Δ0 \Delta \neq 0

曼-惠特尼U统计量的基本思想是:将两个样本合并后按升序排列,然后比较每个 X 观测值在所有 Y 观测值之前的次数。若 X 总体普遍大于 Y 总体,则 X 的秩较高,反之亦然。

U 统计量的计算

曼-惠特尼U统计量有两种等价的定义方式。

基于成对比较

U 统计量定义为所有成对比较中 X 观测值大于 Y 观测值的次数:

U=i=1mj=1n1(Yj<Xi)U = \sum_{i=1}^{m} \sum_{j=1}^{n} \mathbf{1}(Y_j < X_i)

其中 1() \mathbf{1}(\cdot) 为示性函数。直观上,U 统计量衡量的是从两个样本中随机各取一个观测值时,X 观测值大于 Y 观测值的概率。

基于秩和

利用秩和计算更为简便。令 RX R_X 为 X 样本中所有观测值在合并样本中的秩和,则:

U=mn+m(m+1)2RXU = mn + \frac{m(m+1)}{2} - R_X

类似地,U=mnU U' = mn - U 对应 Y 样本的相应统计量。检验时通常取 U U U U' 中的较小值作为检验统计量。

示例

设有两组数据:

  • 组A(X):2, 4, 6(m=3)
  • 组B(Y):1, 3, 5(n=3)

合并排序:1(Y), 2(X), 3(Y), 4(X), 5(Y), 6(X)。X 的秩为 2, 4, 6,秩和为 RX=12 R_X = 12

U=3×3+3×4212=9+612=3 U = 3 \times 3 + \frac{3 \times 4}{2} - 12 = 9 + 6 - 12 = 3 。直观验证:成对比较中 (2,1),(4,1),(4,3),(6,1),(6,3),(6,5) (2,1), (4,1), (4,3), (6,1), (6,3), (6,5) 共 6 个 X > Y 的情况,即 U=6?等一下,这里需要重新计算。

成对比较计算:所有 X 与 Y 的组合共 9 对。XiX_i > YjY_j 的情况有:(2,1), (4,1), (4,3), (6,1), (6,3), (6,5) 共 6 对,所以 U=6。

RX=12 R_X=12 代入公式:U=9+612=3 U = 9 + 6 - 12 = 3 。这里不一致是因为公式 U=mn+m(m+1)2RX U = mn + \frac{m(m+1)}{2} - R_X 定义的是 Wilcoxon 秩和统计量的转换,实际上该公式给出的是另一种形式的 U 统计量。正确的对应关系是:两个公式给出的 U 是不同的定义方式,分别对应 Mann-Whitney U 和 Wilcoxon 秩和 W 的转换。在标准教科书中,Mann-Whitney U 定义为 U=RXm(m+1)2 U = R_X - \frac{m(m+1)}{2} ,即 U=126=6 U = 12 - 6 = 6 ,与成对比较结果一致。

因此,正确的公式应为:

UX=RXm(m+1)2U_X = R_X - \frac{m(m+1)}{2}
UY=RYn(n+1)2U_Y = R_Y - \frac{n(n+1)}{2}

UX+UY=mn U_X + U_Y = mn 。检验时取 U=min(UX,UY) U = \min(U_X, U_Y)

假设

曼-惠特尼U检验的假设条件包括:

  1. 独立性:两组样本各自独立,组内观测值也相互独立。
  2. 有序尺度:数据至少为有序变量(ordinal scale),即可以比较大小。
  3. 分布形状相似(位置偏移假设):两总体的分布形态大致相同,仅在位置上存在偏移。严格来说,原假设为 H0:FX(t)=FY(t) H_0: F_X(t) = F_Y(t) ,备择假设为 H1:FX(t)=FY(t+Δ) H_1: F_X(t) = F_Y(t + \Delta) Δ0 \Delta \neq 0

与 t 检验不同,曼-惠特尼U检验不要求正态性,也不要求方差齐性(尽管严重异方差会影响检验的解释)。

假设检验

原假设与备择假设

  • 双尾检验:H0:Δ=0 H_0: \Delta = 0 H1:Δ0 H_1: \Delta \neq 0
  • 单尾检验:H0:Δ0 H_0: \Delta \leq 0 H1:Δ>0 H_1: \Delta > 0 (或反向)

检验步骤

  1. 将两组样本合并,按升序排列,赋予秩次(ties 取平均秩)。
  2. 计算某一组的秩和 R R
  3. 计算 U 统计量:U=Rn(n+1)2 U = R - \frac{n(n+1)}{2}
  4. 在大样本下(通常 m,n > 20),U 的抽样分布近似正态分布:
μU=mn2,σU=mn(N+1)12\mu_U = \frac{mn}{2}, \quad \sigma_U = \sqrt{\frac{mn(N+1)}{12}}

其中 N=m+n N = m + n 。对于存在结(ties)的情况,需要进行连续性校正:

σU=mnN(N1)(N3N12k=1Ktk3tk12)\sigma_U = \sqrt{\frac{mn}{N(N-1)}\left(\frac{N^3-N}{12} - \sum_{k=1}^{K} \frac{t_k^3 - t_k}{12}\right)}

其中 K K 为结的组数,tk t_k 为第 k k 组结中观测值的个数。

  1. 计算标准正态检验统计量 z=(UμU)/σU z = (U - \mu_U) / \sigma_U ,并与临界值比较。

效应量

在曼-惠特尼U检验中,常用的效应量指标包括:

概率优势(Probabilistic Superiority)

P^(X>Y)=Umn\hat{P}(X > Y) = \frac{U}{mn}

该指标直观地表示:从 X 总体中随机抽取一个观测值大于从 Y 总体中随机抽取一个观测值的概率。取值范围为 [0, 1],0.5 表示两总体无差异。

秩二列相关(Rank-Biserial Correlation)

rrb=12Umn=2Umn1r_{rb} = 1 - \frac{2U}{mn} = \frac{2U}{mn} - 1

该指标将 U 统计量标准化到 [1,1] [-1, 1] 区间,正值表示 X 总体倾向于大于 Y 总体。

与其它方法的关系

Wilcoxon 秩和检验

Mann-Whitney U 检验与 Wilcoxon 秩和检验(Wilcoxon rank-sum test)本质上是同一检验,仅在统计量的定义上有细微差别。Wilcoxon 使用秩和 W 作为统计量,而 Mann-Whitney 使用 U 统计量。两者之间存在一一对应关系。

Brunner-Munzel 检验

当两总体分布形状差异较大时,Mann-Whitney U 检验可能无法有效区分位置偏移与尺度差异。Brunner-Munzel 检验(又称广义 Wilcoxon 检验)放松了分布形状相同的假设,适用于更一般的情形。

Kruskal-Wallis 检验

Kruskal-Wallis 检验是 Mann-Whitney U 检验向多组比较的推广,相当于非参数版本的方差分析(ANOVA)。

应用场景

曼-惠特尼U统计量广泛应用于以下领域:

  1. 医学研究:比较治疗组与对照组的疗效(如疼痛评分、生活质量评分等有序数据)。
  2. 社会科学:比较不同群体在态度量表、满意度调查等非正态数据上的差异。
  3. 心理学:分析认知测试得分等不满足正态性假设的组间比较。
  4. 经济学:比较不同政策干预下的非正态分布的经济指标。
  5. 生物统计学:分析基因表达数据、生态学计数数据等。

优点与局限

优点

  • 对异常值较为稳健,不依赖正态性假设。
  • 适用于有序分类数据(如 Likert 量表)。
  • 在小样本下依然有效,且渐近相对效率(ARE)相对于 t 检验不低于 0.864。

局限

  • 当两组分布形态差异较大(如方差高度不等)时,检验结果难以解释为位置差异。
  • 面对大量结(ties)时,需要校正公式,检验效力降低。
  • 无法直接估计均值差异的大小;效应量解释不如 Cohen's d 直观。
  • 对于正态分布的数据,由于未充分利用数据信息,检验效力低于 t 检验。

软件实现

  • R:\texttt{wilcox.test(x, y, paired=FALSE)}
  • Python (SciPy):\texttt{scipy.stats.mannwhitneyu(x, y, alternative='two-sided')}
  • Stata:\texttt{ranksum varname, by(groupvar)}
  • SPSS:Analyze → Nonparametric Tests → Independent Samples → Mann-Whitney U
  • MATLAB:\texttt{ranksum(x, y, 'tail', 'both')}

参考文献

  1. Mann, H. B., \& Whitney, D. R. (1947). On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other. *The Annals of Mathematical Statistics*, 18(1), 50–60.
  2. Wilcoxon, F. (1945). Individual Comparisons by Ranking Methods. *Biometrics Bulletin*, 1(6), 80–83.
  3. Hollander, M., Wolfe, D. A., \& Chicken, E. (2014). *Nonparametric Statistical Methods* (3rd ed.). Wiley.
  4. Lehmann, E. L. (2006). *Nonparametrics: Statistical Methods Based on Ranks* (Rev. ed.). Springer.