ARTICLE

两独立样本的分布检验

两独立样本的分布检验 (Distribution Test for Two Independent Samples) 两独立样本的分布检验是一类统计假设检验方法,其核心目标是判断两个独立的样本是否来自于同一个总体分布。与关注特定参数(如均值或方差)的检验(例如t检验或F检验)不同,分布检验旨在比较两个样本所代表的分布的整体形状、位置和离散程度,而非仅限于某个

浏览 16 更新 2025-10-25

两独立样本的分布检验 (Distribution Test for Two Independent Samples)

两独立样本的分布检验是一类统计假设检验方法,其核心目标是判断两个独立的样本是否来自于同一个总体分布。与关注特定参数(如均值或方差)的检验(例如t检验F检验)不同,分布检验旨在比较两个样本所代表的分布的整体形状、位置和离散程度,而非仅限于某个具体参数。

这类检验属于非参数统计(Nonparametric Statistics)的范畴,因为它们通常不对总体的分布形式(如正态分布)做出预先假设。这使得它们在数据不满足参数检验的严格假设时,成为非常强大和灵活的分析工具。在生物统计学计量经济学心理学等众多领域中,当数据呈现偏态分布、存在异常值或样本量较小时,分布检验往往比参数检验更为可靠。

检验的基本逻辑

进行两独立样本分布检验时,我们通常设立以下零假设H0 H_0 )和备择假设H1 H_1 ):

  • 零假设H0 H_0 ):两个样本来自相同的总体分布。如果用累积分布函数(Cumulative Distribution Function, CDF)来表示,即 F1(x)=F2(x) F_1(x) = F_2(x) 对于所有的 x x
  • 备择假设H1 H_1 ):两个样本来自不同的总体分布。即,存在至少一个 x x 使得 F1(x)F2(x) F_1(x) \neq F_2(x)

检验的目的是利用样本数据计算出一个检验统计量(Test Statistic),并根据该统计量的值来决定是拒绝还是不能拒绝零假设。由于不对分布形式做参数化假定,这类检验的临界值通常通过排列组合原理或大样本渐近理论获得。

主要的检验方法

在实践中,最常用的两种两独立样本分布检验方法是 Kolmogorov-Smirnov 检验Wilcoxon 秩和检验

两样本 Kolmogorov-Smirnov 检验 (Two-Sample K-S Test)

Kolmogorov-Smirnov 检验(简称 K-S 检验)是一种非常通用的分布检验方法,它直接比较两个样本的经验分布函数(Empirical Distribution Function, EDF)。

核心思想经验分布函数 Sn(x) S_n(x) 是对真实累积分布函数 F(x) F(x) 的一种非参数估计。对于一个大小为 n n 的样本,其经验分布函数定义为:

Sn(x)=样本中小于等于 x 的观测值数量nS_n(x) = \frac{\text{样本中小于等于 } x \text{ 的观测值数量}}{n}

K-S 检验的思想是,如果两个样本确实来自同一个分布,那么它们的经验分布函数应该非常接近。反之,如果它们来自不同的分布,其经验分布函数之间应该存在较大的差异。该检验的统计量 D D 就是两个经验分布函数在所有点上差异的最大绝对值。

检验步骤与统计量:假设我们有两个独立样本——样本1(X1,X2,,Xn1 X_1, X_2, \dots, X_{n_1} )和样本2(Y1,Y2,,Yn2 Y_1, Y_2, \dots, Y_{n_2} ),其经验分布函数分别为 Sn1(x) S_{n_1}(x) Sn2(x) S_{n_2}(x) 。K-S 检验的统计量定义为:

Dn1,n2=supxSn1(x)Sn2(x)D_{n_1, n_2} = \sup_{x} |S_{n_1}(x) - S_{n_2}(x)|

这里的 supx \sup_x 表示取遍所有 x x 值的上确界,在实践中它就是两个阶梯状经验分布函数图像之间的最大垂直距离。D D 统计量的取值范围在 0 到 1 之间,值越大表明两个分布的差异越大。

决策规则:计算出 Dn1,n2 D_{n_1, n_2} 的值后,将其与给定显著性水平 α \alpha 下的临界值进行比较。若 Dn1,n2 D_{n_1, n_2} 大于临界值则拒绝 H0 H_0 ,认为两个样本来自不同的分布;反之则没有足够证据拒绝 H0 H_0 。临界值依赖于样本量,通常通过查表或统计软件获得。在统计软件(如 R语言 的 \texttt{ks.test()} 函数或 Python 的 \texttt{scipy.stats.ks\_2samp})中,通常直接给出 p p 值以方便决策。

优缺点:K-S 检验对两个分布之间的任何类型差异(包括位置、离散程度和偏度)都很敏感,但在分布的中心部分比在尾部更为敏感。当样本量较小时,检验的统计功效(Power)可能不高。此外,K-S 检验要求数据为连续型变量,且对(Ties)的处理较为保守。

Wilcoxon 秩和检验 (Wilcoxon Rank-Sum Test)

Wilcoxon秩和检验,也常被称为Mann-Whitney U检验,是另一种非常流行的非参数检验方法。虽然它本质上也是在检验两个分布是否相同,但它对分布的位置(中位数)差异特别敏感,因此常被用作独立样本t检验的非参数替代方法。

核心思想:该检验不直接使用观测值的数值,而是使用它们的(Rank)。基本逻辑是:如果两个样本来自同一个分布,将它们混合并排序后,来自两个样本的观测值的秩应该是随机混合的。若一个样本的秩普遍高于另一个,则说明该样本的分布可能在位置上(即中位数)整体偏大。

检验步骤:首先将两个样本的所有观测值合并排序并为每个值分配秩,若出现相同值(,Ties)则取平均秩。然后计算其中一个样本的秩和 W W 。Wilcoxon 秩和统计量为 W W ,而 Mann-Whitney U 统计量定义为 U=Wn(n+1)2 U = W - \frac{n(n+1)}{2} ,它代表"从第一个样本中任取一值大于从第二个样本中任取一值的次数",这一直观解释使得 U U 统计量在教学中尤为常用。

决策规则:小样本时查阅专门的临界值表;大样本时 U U 统计量近似服从正态分布,可构造 Z Z 统计量 Z=UμUσU Z = \frac{U - \mu_U}{\sigma_U} 进行检验。当备择假设主要是关于中位数差异时,Wilcoxon 检验通常比 K-S 检验更具统计功效,且对异常值不敏感。

检验方法的选择与实际应用

选择检验方法取决于研究问题:若想进行笼统检验(分布是否存在任何差异),两样本 K-S 检验更合适;若主要关心中位数是否存在差异,Wilcoxon 秩和检验 / Mann-Whitney U 检验通常更强大。例如,在医学研究中比较两种治疗方案的效果时,若怀疑新疗法不仅提升均值还改变分布形态,宜选用 K-S 检验;若主要关注疗效是否"整体更好"(即中位数提高),则 Wilcoxon 检验更合适。在实际数据分析中,常常同时使用两种方法以全面把握数据特征。