ARTICLE

两独立样本的分布检验

两独立样本的分布检验 (Distribution Test for Two Independent Samples) 两独立样本的分布检验是一类统计假设检验方法，其核心目标是判断两个独立的样本是否来自于同一个总体分布。与关注特定参数（如均值或方差）的检验（例如t检验或F检验）不同，分布检验旨在比较两个样本所代表的分布的整体形状、位置和离散程度，而非仅限于某个

浏览 16 更新 2025-10-25

两独立样本的分布检验 (Distribution Test for Two Independent Samples)

两独立样本的分布检验是一类统计假设检验方法，其核心目标是判断两个独立的样本是否来自于同一个总体分布。与关注特定参数（如均值或方差）的检验（例如t检验或F检验）不同，分布检验旨在比较两个样本所代表的分布的整体形状、位置和离散程度，而非仅限于某个具体参数。

这类检验属于非参数统计（Nonparametric Statistics）的范畴，因为它们通常不对总体的分布形式（如正态分布）做出预先假设。这使得它们在数据不满足参数检验的严格假设时，成为非常强大和灵活的分析工具。在生物统计学、计量经济学、心理学等众多领域中，当数据呈现偏态分布、存在异常值或样本量较小时，分布检验往往比参数检验更为可靠。

检验的基本逻辑

进行两独立样本分布检验时，我们通常设立以下零假设（ $H_0$ ）和备择假设（ $H_1$ ）：

零假设（ $H_0$ ）：两个样本来自相同的总体分布。如果用累积分布函数（Cumulative Distribution Function, CDF）来表示，即 $F_1(x) = F_2(x)$ 对于所有的 $x$ 。
备择假设（ $H_1$ ）：两个样本来自不同的总体分布。即，存在至少一个 $x$ 使得 $F_1(x) \neq F_2(x)$ 。

检验的目的是利用样本数据计算出一个检验统计量（Test Statistic），并根据该统计量的值来决定是拒绝还是不能拒绝零假设。由于不对分布形式做参数化假定，这类检验的临界值通常通过排列组合原理或大样本渐近理论获得。

主要的检验方法

在实践中，最常用的两种两独立样本分布检验方法是 Kolmogorov-Smirnov 检验 和 Wilcoxon 秩和检验。

两样本 Kolmogorov-Smirnov 检验 (Two-Sample K-S Test)

Kolmogorov-Smirnov 检验（简称 K-S 检验）是一种非常通用的分布检验方法，它直接比较两个样本的经验分布函数（Empirical Distribution Function, EDF）。

核心思想：经验分布函数 $S_n(x)$ 是对真实累积分布函数 $F(x)$ 的一种非参数估计。对于一个大小为 $n$ 的样本，其经验分布函数定义为：

S_n(x) = \frac{\text{样本中小于等于 } x \text{ 的观测值数量}}{n}

K-S 检验的思想是，如果两个样本确实来自同一个分布，那么它们的经验分布函数应该非常接近。反之，如果它们来自不同的分布，其经验分布函数之间应该存在较大的差异。该检验的统计量 $D$ 就是两个经验分布函数在所有点上差异的最大绝对值。

检验步骤与统计量：假设我们有两个独立样本——样本1（ $X_1, X_2, \dots, X_{n_1}$ ）和样本2（ $Y_1, Y_2, \dots, Y_{n_2}$ ），其经验分布函数分别为 $S_{n_1}(x)$ 和 $S_{n_2}(x)$ 。K-S 检验的统计量定义为：

D_{n_1, n_2} = \sup_{x} |S_{n_1}(x) - S_{n_2}(x)|

这里的 $\sup_x$ 表示取遍所有 $x$ 值的上确界，在实践中它就是两个阶梯状经验分布函数图像之间的最大垂直距离。 $D$ 统计量的取值范围在 0 到 1 之间，值越大表明两个分布的差异越大。

决策规则：计算出 $D_{n_1, n_2}$ 的值后，将其与给定显著性水平 $\alpha$ 下的临界值进行比较。若 $D_{n_1, n_2}$ 大于临界值则拒绝 $H_0$ ，认为两个样本来自不同的分布；反之则没有足够证据拒绝 $H_0$ 。临界值依赖于样本量，通常通过查表或统计软件获得。在统计软件（如 R语言的 \texttt{ks.test()} 函数或 Python 的 \texttt{scipy.stats.ks\_2samp}）中，通常直接给出 $p$ 值以方便决策。

优缺点：K-S 检验对两个分布之间的任何类型差异（包括位置、离散程度和偏度）都很敏感，但在分布的中心部分比在尾部更为敏感。当样本量较小时，检验的统计功效（Power）可能不高。此外，K-S 检验要求数据为连续型变量，且对结（Ties）的处理较为保守。

Wilcoxon 秩和检验 (Wilcoxon Rank-Sum Test)

Wilcoxon秩和检验，也常被称为Mann-Whitney U检验，是另一种非常流行的非参数检验方法。虽然它本质上也是在检验两个分布是否相同，但它对分布的位置（中位数）差异特别敏感，因此常被用作独立样本t检验的非参数替代方法。

核心思想：该检验不直接使用观测值的数值，而是使用它们的秩（Rank）。基本逻辑是：如果两个样本来自同一个分布，将它们混合并排序后，来自两个样本的观测值的秩应该是随机混合的。若一个样本的秩普遍高于另一个，则说明该样本的分布可能在位置上（即中位数）整体偏大。

检验步骤：首先将两个样本的所有观测值合并排序并为每个值分配秩，若出现相同值（结，Ties）则取平均秩。然后计算其中一个样本的秩和 $W$ 。Wilcoxon 秩和统计量为 $W$ ，而 Mann-Whitney U 统计量定义为 $U = W - \frac{n(n+1)}{2}$ ，它代表"从第一个样本中任取一值大于从第二个样本中任取一值的次数"，这一直观解释使得 $U$ 统计量在教学中尤为常用。

决策规则：小样本时查阅专门的临界值表；大样本时 $U$ 统计量近似服从正态分布，可构造 $Z$ 统计量 $Z = \frac{U - \mu_U}{\sigma_U}$ 进行检验。当备择假设主要是关于中位数差异时，Wilcoxon 检验通常比 K-S 检验更具统计功效，且对异常值不敏感。

检验方法的选择与实际应用

选择检验方法取决于研究问题：若想进行笼统检验（分布是否存在任何差异），两样本 K-S 检验更合适；若主要关心中位数是否存在差异，Wilcoxon 秩和检验 / Mann-Whitney U 检验通常更强大。例如，在医学研究中比较两种治疗方案的效果时，若怀疑新疗法不仅提升均值还改变分布形态，宜选用 K-S 检验；若主要关注疗效是否"整体更好"（即中位数提高），则 Wilcoxon 检验更合适。在实际数据分析中，常常同时使用两种方法以全面把握数据特征。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。