ARTICLE
Mann-Whitney U检验
Mann-Whitney U检验 Mann-Whitney U检验(也称 Mann–Whitney–Wilcoxon 检验或 Wilcoxon 秩和检验)是一种非参数统计方法,用于比较两个独立样本是否来自同一总体分布。与经典的两样本 t 检验不同,该检验不要求数据服从正态分布,也不要求两组方差齐性,仅需观测值之间独立且具有可比的有序尺度。它由 Henry M
Mann-Whitney U检验
Mann-Whitney U检验(也称 Mann–Whitney–Wilcoxon 检验或 Wilcoxon 秩和检验)是一种非参数统计方法,用于比较两个独立样本是否来自同一总体分布。与经典的两样本 t 检验不同,该检验不要求数据服从正态分布,也不要求两组方差齐性,仅需观测值之间独立且具有可比的有序尺度。它由 Henry Mann 和 Donald Whitney 于 1947 年提出,Frank Wilcoxon 于 1945 年独立提出等价形式。
Mann-Whitney U检验的零假设 () 为:两组样本来自同一分布(更精确地,随机从 X 组取一个观测和从 Y 组取一个观测,)。备择假设 () 可以是双侧(两分布不同)、左侧(X 倾向于小于 Y)或右侧(X 倾向于大于 Y)。当零假设成立时,U 统计量服从已知的抽样分布,据此可计算p值以做出统计推断。
数学定义与计算
设两组独立样本分别为 和 。将所有 个观测值混合后从小到大排序,赋予秩次 ;遇相等值(ties)时赋予平均秩。令 为 X 组样本的秩和,则 U 统计量定义为:
其中 ,且 。检验统计量通常取 用于双侧检验,或依备择假设方向选用相应的 或 。
U 统计量的直观含义为:对于所有配对 ,计数 X 大于 Y 的次数。每个配对中 贡献 1, 贡献 0.5。因此 U 是两组间优势关系的汇总度量。
Wilcoxon秩和检验的等价性
Mann-Whitney U检验与 Wilcoxon 秩和检验在数学上完全等价,U 与秩和 之间仅差一个常数:
因此两种检验产生相同的 p 值。两者统一称为 Mann–Whitney–Wilcoxon (MWW) 检验。在实际应用中,统计软件通常同时报告 U 值、秩和以及标准化后的 Z 值。
正态近似与大样本性质
对于小样本(通常 ),U 统计量在零假设下的精确分布可通过组合数学计算,临界值可查专用表格。当样本量增大时,由中心极限定理,U 的零分布迅速逼近正态分布:
其中期望和方差(无相等值时)为:
存在相等值时需对方差进行校正。设 为不同值的个数,第 组相等值包含 个观测,则校正后方差为:
假设与适用条件
Mann-Whitney U检验的关键假设包括:①两组样本彼此独立,抽取过程互不干扰;②组内观测独立同分布;③变量至少为有序尺度,即观测值可排序;④零假设下,两组分布的形状相同但允许位置偏移。最后一条是检验的位置偏移模型假设——若两组分布的形状差异显著(如一方严重偏态而另一方对称),即便中位数相同,Mann-Whitney 检验仍可能显著,此时结果应解释为分布差异而非中位数差异。
与 t 检验的比较
Mann-Whitney U检验与两样本 t 检验服务于相似的研究目的,但效率特征不同。当数据确为正态分布时,t 检验的统计功效略高——Mann-Whitney 检验的渐近相对效率 (ARE) 约为 ,即损失约 4.5\% 的效率。然而,当数据偏离正态(如重尾或含异常值),Mann-Whitney 检验的功效可远超 t 检验,ARE 甚至可无限大于 1。因此,对于明显偏态、存在极端值或仅有序数测量的数据,Mann-Whitney 检验是更稳健可靠的选择。但对于样本量极小(每组 < 5)的情形,t 检验虽有正态假设,Mann-Whitney 检验的精确临界值也极度粗糙,两种检验均需谨慎解读。
经济学与社会科学中的应用
在经济学实证研究中,Mann-Whitney U检验广泛应用于比较两组独立观测的分布差异:
- 政策评估与实验经济学:比较实验组与对照组的产出变量(如收入、生产率)是否存在系统性差异,当样本量有限且数据分布未知时尤为适用。
- 劳动经济学:比较不同性别、地区或教育水平的工资分布差异,薪资数据通常右偏严重,正态假设难以满足。
- 发展经济学:随机对照试验 (RCT) 中分析基线协变量在处理组与对照组间的平衡性;对于非正态的计数或评分结果,检验干预效应。
- 行为经济学:比较不同激励方案下的选择行为差异,因行为数据常为离散有序变量(如 Likert 量表评分)。
效应量
与任何假设检验一样,统计显著并不等同于实际重要。Mann-Whitney U检验的常用效应量指标包括:
- 秩双列相关系数 (rank-biserial correlation):,取值范围 ,度量两组秩次的标准化差异。 通常视为大效应。
- 概率优势 (probability of superiority, PS):,表示从 X 组随机抽取的观测大于从 Y 组随机抽取的观测的概率。 对应零假设, 或 表明实质性差异。
- Cohen's d 的非参数类比:基于秩次的标准化均值差,可通过 近似转换。
报告效应量已日益成为实证研究的规范要求——它使读者能够在统计显著性之外判断结果的实际含义,也有利于后续荟萃分析 (meta-analysis) 中的效应合并。
局限与注意事项
尽管 Mann-Whitney U检验具有广泛的适用性,其结论的解读需格外审慎。首先,该检验并非严格的中位数检验——仅在两组分布形状相同的前提下,显著结果可解释为中位数差异;否则显著仅意味着分布不同,可能源于形状、离散度或其他高阶特征。其次,存在大量相等值时,方差校正虽有效,但检验功效有所下降,应考虑使用精确排列检验或Brunner-Munzel检验等替代方法。再者,Mann-Whitney 检验无法处理配对设计,对于配对或重复测量数据应使用Wilcoxon符号秩检验。最后,该检验对异方差性的不敏感仅限于位置偏移模型;若两组方差差异悬殊且分布形状不同,检验的第一类错误率可能偏离名义水平。此外,当样本量极不平衡(如 )时,检验对分布形状差异的敏感性显著降低,建议使用排列检验或 bootstrap 方法进行稳健推断。