ARTICLE
Wilcoxon秩和检验
Wilcoxon秩和检验 (Wilcoxon Rank-Sum Test) Wilcoxon秩和检验(Wilcoxon Rank-Sum Test),又称Mann-Whitney U检验(Mann–Whitney U Test),是一种广泛应用于非参数统计学的假设检验方法。它用于比较两组独立样本是否来自具有相同中位数的总体,是两独立样本t检验(two-sam
Wilcoxon秩和检验 (Wilcoxon Rank-Sum Test)
Wilcoxon秩和检验(Wilcoxon Rank-Sum Test),又称Mann-Whitney U检验(Mann–Whitney U Test),是一种广泛应用于非参数统计学的假设检验方法。它用于比较两组独立样本是否来自具有相同中位数的总体,是两独立样本t检验(two-sample t-test)的一种强有力的非参数替代方案。该检验由美国统计学家Frank Wilcoxon于1945年在一篇题为《Individual Comparisons by Ranking Methods》的论文中首次提出。随后,Henry Mann和Donald Whitney于1947年在《Annals of Mathematical Statistics》上发表了推广版本(即Mann-Whitney U检验),将其适用范围扩展至不等样本量的情形,并给出了完整的精确分布表。如今,这两个名称在统计学文献中常常混用,所指的实质上是同一方法。
与参数检验不同,Wilcoxon秩和检验不要求数据服从正态分布,也不要求两组数据的方差相等,仅需满足较少的假设条件。这使得它在处理非正态数据、有序分类变量或含有异常值的数据时具有显著优势。
检验的基本逻辑与假设
Wilcoxon秩和检验的核心思想是:如果两组样本来自同一个分布,那么将两组数据合并排序后,各组的秩和(rank sum)应当大致成比例于其样本量;反之,如果一组系统的秩次偏高或偏低,则表明两组存在差异。
基本假设
该检验建立在如下假定之上:
- 独立性:两组样本各自独立,且组内观测也相互独立。
- 有序性:被测量的变量至少是有序尺度(ordinal scale)的,即观测值之间可以比较大小。
- 分布形状相似:在两组的分布形状大致相同的前提下,检验的原假设是两组的中位数相等;若分布形状不同,则检验退化为检验两组的分布是否相同。
原假设与备择假设
- 原假设 :两组样本所来自的总体分布相同(或中位数相等)。
- 备择假设 :两组样本所来自的总体分布不同(或中位数不等,可单侧也可双侧)。
检验步骤与统计量
1. 合并与排序
将两组样本(设第一组样本量为 ,第二组样本量为 )的所有观测值合并,按从小到大的顺序排列,并赋予每个观测值一个秩次(rank)。最小的观测值秩次为1,次小为2,依此类推。出现相同数值时,取平均秩次(即秩次平局的处理)。例如,若第3和第4位的观测值相等,则两者均赋予秩次3.5。
2. 计算秩和
分别计算两组样本的秩和(rank sum)。通常选择样本量较小的一组,将其秩和记作 (Wilcoxon统计量)。若两组样本量相等,则任选一组即可。
3. W统计量的分布
在零假设成立且无平局的情况下, 的精确分布是可以推导出来的。 的取值范围介于最小可能值()与最大可能值()之间。其期望值和方差分别为:
当 和 均较大时(通常认为两者均大于10), 统计量近似服从正态分布,可使用Z检验进行推断:
4. 与Mann-Whitney U统计量的关系
Mann-Whitney U统计量与Wilcoxon秩和统计量之间存在严格的代数对应关系。U统计量的定义是:将第一组中的每一个观测值与第二组中的每一个观测值进行比较,计算第一组观测值大于第二组观测值的次数总和,即:
其中 为示性函数。二者的转换公式为:
且有关系 。因此,这两个检验在实质上是等价的,差别仅在于计算公式的不同。大多数统计软件报告的是U统计量及其对应的p-value。
应用示例
假设我们想比较一种新药与安慰剂对疼痛评分的影响。两组各有8名受试者,疼痛评分(1–10分,分数越高越痛)数据如下:
- 新药组():3, 5, 2, 4, 6, 3, 4, 5
- 安慰剂组():7, 8, 6, 9, 7, 8, 9, 10
将所有16个数据合并排序赋秩。新药组的秩和 较小(因为数值偏小)。计算 并与临界值比较。若 小于临界值或相应的 p-value 低于显著性水平 ,则拒绝原假设,认为新药显著降低了疼痛评分。
在实际应用中,研究者多借助统计软件完成计算。例如,在R语言中可使用\texttt{wilcox.test()}函数,在Python中使用\texttt{scipy.stats.mannwhitneyu()},在SPSS中则通过"Analyze → Nonparametric Tests → Legacy Dialogs → 2 Independent Samples"菜单路径完成。
效应量度量
当Wilcoxon秩和检验拒绝原假设后,研究者常常需要报告效应量以衡量差异的大小。常用的效应量指标包括:
- 秩双列相关系数(Rank-Biserial Correlation, ):,取值范围为 。
- Common Language效应量(CLES):,表示随机抽取的一组观测值大于另一组观测值的概率。
优势与局限性
优势
- 不依赖正态性假定:适用于偏态分布、有序分类变量或小样本数据。
- 对异常值稳健:秩次将极端值的影响限制在末位秩次,避免了异常值对结果的过度干扰。
- 适用性广:只需数据具备有序性,可用于许多参数检验不适用的场合。
局限性
- 统计功效较低:当数据确实满足正态分布和方差齐性时,Wilcoxon秩和检验的检验功效(power)低于t检验,即更容易犯第二类错误。
- 对分布形状敏感:如果两组的分布形状差异较大(如一组的方差远大于另一组),检验结果可能无法简单解释为中位数的差异。
- 信息损失:将原始数据转换为秩次的过程丢失了数据之间的实际距离信息,可能会导致部分统计效率的降低。
与其他非参数检验的关系
Wilcoxon秩和检验与许多其他非参数方法有着紧密联系:
- Wilcoxon符号秩检验(Wilcoxon Signed-Rank Test):这是针对配对样本或单样本中位数检验的非参数方法,与秩和检验仅一字之差,但适用于配对设计数据而非独立两组数据。
- Kruskal-Wallis检验:当需要比较三组或更多独立样本时,Kruskal-Wallis检验是Wilcoxon秩和检验的直接推广,相当于单因素方差分析的非参数版本。
- Jonckheere-Terpstra检验:当各组之间存在先验的顺序趋势假设时,该检验提供了比Kruskal-Wallis检验更强的检验功效。
这些方法共同构成了非参数统计中基于秩次的检验体系,各自适用于不同的研究设计类型。
总结
Wilcoxon秩和检验作为非参数统计中最经典的检验方法之一,以其假设条件宽松、计算简单和稳健性好的特点,在医学研究、社会科学、心理学、生态学等诸多领域得到了极为广泛的应用。当数据无法满足参数检验的前提假定时,它提供了一种可靠且易于解释的替代方案,是每一位数据分析人员应掌握的核心工具之一。理解该检验的数学原理、适用条件与局限,有助于在实际研究中选择最恰当的统计方法,从而得出可靠的结论。