ARTICLE
曼-惠特尼U统计量
曼-惠特尼U统计量 概述 曼-惠特尼U统计量(Mann-Whitney U statistic)是曼-惠特尼检验(Mann-Whitney U test,亦称 Wilcoxon 秩和检验)的核心统计量。该检验由 Henry Mann 和 Donald Whitney 于1947年提出,是统计学中最常用的非参数检验方法之一,用于判断两个独立样本是否来自同一总体
曼-惠特尼U统计量
概述
曼-惠特尼U统计量(Mann-Whitney U statistic)是曼-惠特尼检验(Mann-Whitney U test,亦称 Wilcoxon 秩和检验)的核心统计量。该检验由 Henry Mann 和 Donald Whitney 于1947年提出,是统计学中最常用的非参数检验方法之一,用于判断两个独立样本是否来自同一总体分布。作为独立样本 t 检验的非参数替代,曼-惠特尼U检验不要求数据满足正态性假设,仅依赖于样本观测值的相对排序。
定义与基本思想
设从总体 X 中抽取容量为 m 的独立样本 ,从总体 Y 中抽取容量为 n 的独立样本 。曼-惠特尼检验关心的是:两个总体是否存在位置偏移(location shift),即是否满足 其中 。
曼-惠特尼U统计量的基本思想是:将两个样本合并后按升序排列,然后比较每个 X 观测值在所有 Y 观测值之前的次数。若 X 总体普遍大于 Y 总体,则 X 的秩较高,反之亦然。
U 统计量的计算
曼-惠特尼U统计量有两种等价的定义方式。
基于成对比较
U 统计量定义为所有成对比较中 X 观测值大于 Y 观测值的次数:
其中 为示性函数。直观上,U 统计量衡量的是从两个样本中随机各取一个观测值时,X 观测值大于 Y 观测值的概率。
基于秩和
利用秩和计算更为简便。令 为 X 样本中所有观测值在合并样本中的秩和,则:
类似地, 对应 Y 样本的相应统计量。检验时通常取 与 中的较小值作为检验统计量。
示例
设有两组数据:
- 组A(X):2, 4, 6(m=3)
- 组B(Y):1, 3, 5(n=3)
合并排序:1(Y), 2(X), 3(Y), 4(X), 5(Y), 6(X)。X 的秩为 2, 4, 6,秩和为 。
则 。直观验证:成对比较中 共 6 个 X > Y 的情况,即 U=6?等一下,这里需要重新计算。
成对比较计算:所有 X 与 Y 的组合共 9 对。 > 的情况有:(2,1), (4,1), (4,3), (6,1), (6,3), (6,5) 共 6 对,所以 U=6。
而 代入公式:。这里不一致是因为公式 定义的是 Wilcoxon 秩和统计量的转换,实际上该公式给出的是另一种形式的 U 统计量。正确的对应关系是:两个公式给出的 U 是不同的定义方式,分别对应 Mann-Whitney U 和 Wilcoxon 秩和 W 的转换。在标准教科书中,Mann-Whitney U 定义为 ,即 ,与成对比较结果一致。
因此,正确的公式应为:
且 。检验时取 。
假设
曼-惠特尼U检验的假设条件包括:
- 独立性:两组样本各自独立,组内观测值也相互独立。
- 有序尺度:数据至少为有序变量(ordinal scale),即可以比较大小。
- 分布形状相似(位置偏移假设):两总体的分布形态大致相同,仅在位置上存在偏移。严格来说,原假设为 ,备择假设为 且 。
与 t 检验不同,曼-惠特尼U检验不要求正态性,也不要求方差齐性(尽管严重异方差会影响检验的解释)。
假设检验
原假设与备择假设
- 双尾检验:,
- 单尾检验:,(或反向)
检验步骤
- 将两组样本合并,按升序排列,赋予秩次(ties 取平均秩)。
- 计算某一组的秩和 。
- 计算 U 统计量:。
- 在大样本下(通常 m,n > 20),U 的抽样分布近似正态分布:
其中 。对于存在结(ties)的情况,需要进行连续性校正:
其中 为结的组数, 为第 组结中观测值的个数。
- 计算标准正态检验统计量 ,并与临界值比较。
效应量
在曼-惠特尼U检验中,常用的效应量指标包括:
概率优势(Probabilistic Superiority)
该指标直观地表示:从 X 总体中随机抽取一个观测值大于从 Y 总体中随机抽取一个观测值的概率。取值范围为 [0, 1],0.5 表示两总体无差异。
秩二列相关(Rank-Biserial Correlation)
该指标将 U 统计量标准化到 区间,正值表示 X 总体倾向于大于 Y 总体。
与其它方法的关系
Wilcoxon 秩和检验
Mann-Whitney U 检验与 Wilcoxon 秩和检验(Wilcoxon rank-sum test)本质上是同一检验,仅在统计量的定义上有细微差别。Wilcoxon 使用秩和 W 作为统计量,而 Mann-Whitney 使用 U 统计量。两者之间存在一一对应关系。
Brunner-Munzel 检验
当两总体分布形状差异较大时,Mann-Whitney U 检验可能无法有效区分位置偏移与尺度差异。Brunner-Munzel 检验(又称广义 Wilcoxon 检验)放松了分布形状相同的假设,适用于更一般的情形。
Kruskal-Wallis 检验
Kruskal-Wallis 检验是 Mann-Whitney U 检验向多组比较的推广,相当于非参数版本的方差分析(ANOVA)。
应用场景
曼-惠特尼U统计量广泛应用于以下领域:
- 医学研究:比较治疗组与对照组的疗效(如疼痛评分、生活质量评分等有序数据)。
- 社会科学:比较不同群体在态度量表、满意度调查等非正态数据上的差异。
- 心理学:分析认知测试得分等不满足正态性假设的组间比较。
- 经济学:比较不同政策干预下的非正态分布的经济指标。
- 生物统计学:分析基因表达数据、生态学计数数据等。
优点与局限
优点
- 对异常值较为稳健,不依赖正态性假设。
- 适用于有序分类数据(如 Likert 量表)。
- 在小样本下依然有效,且渐近相对效率(ARE)相对于 t 检验不低于 0.864。
局限
- 当两组分布形态差异较大(如方差高度不等)时,检验结果难以解释为位置差异。
- 面对大量结(ties)时,需要校正公式,检验效力降低。
- 无法直接估计均值差异的大小;效应量解释不如 Cohen's d 直观。
- 对于正态分布的数据,由于未充分利用数据信息,检验效力低于 t 检验。
软件实现
- R:\texttt{wilcox.test(x, y, paired=FALSE)}
- Python (SciPy):\texttt{scipy.stats.mannwhitneyu(x, y, alternative='two-sided')}
- Stata:\texttt{ranksum varname, by(groupvar)}
- SPSS:Analyze → Nonparametric Tests → Independent Samples → Mann-Whitney U
- MATLAB:\texttt{ranksum(x, y, 'tail', 'both')}
参考文献
- Mann, H. B., \& Whitney, D. R. (1947). On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other. *The Annals of Mathematical Statistics*, 18(1), 50–60.
- Wilcoxon, F. (1945). Individual Comparisons by Ranking Methods. *Biometrics Bulletin*, 1(6), 80–83.
- Hollander, M., Wolfe, D. A., \& Chicken, E. (2014). *Nonparametric Statistical Methods* (3rd ed.). Wiley.
- Lehmann, E. L. (2006). *Nonparametrics: Statistical Methods Based on Ranks* (Rev. ed.). Springer.