# 两样本假设检验方法的汇总 (Summary of Two-Sample Hypothesis Testing Methods)
两样本{{{假设检验}}} (Two-Sample Hypothesis Test) 是{{{推断统计学}}}中的一个核心组成部分,其根本目标是利用来自两个不同{{{总体}}}的{{{样本}}}数据,对这两个总体的某个{{{参数}}}(如{{{均值}}}、{{{方差}}}或{{{比例}}})之间的关系进行统计推断。与单样本检验将一个样本的统计量与一个已知的或假设的总体参数进行比较不同,两样本检验的核心在于 比较 两个独立的或相关的组。
本讲义旨在系统性地梳理和总结常用的两样本假设检验方法,阐明它们的适用条件、基本原理和应用场景,以帮助学习者构建清晰的知识框架。
## 基本原理与设定
所有两样本假设检验都遵循一个共同的逻辑框架,即设立{{{原假设}}} ($H_0$) 和{{{备择假设}}} ($H_1$),计算一个{{{检验统计量}}} (Test Statistic),并根据该统计量的值和{{{显著性水平}}} ($\alpha$) 做出决策。
* 原假设 ($H_0$):通常表述为两个总体的参数之间 没有差异。例如: * 两总体均值相等:$H_0: \mu_1 = \mu_2$ * 两总体方差相等:$H_0: \sigma_1^2 = \sigma_2^2$ * 两总体比例相等:$H_0: p_1 = p_2$ * 备择假设 ($H_1$):表述为两个总体的参数之间 存在差异。它可以是双侧的(不相等)或单侧的(大于或小于)。 * 双侧检验 (Two-tailed test): $H_1: \mu_1 \neq \mu_2$ * 单侧检验 (One-tailed test): $H_1: \mu_1 > \mu_2$ 或 $H_1: \mu_1 < \mu_2$
决策的依据通常是{{{p-value}}}。如果 p-value 小于预设的显著性水平 $\alpha$ (通常为 0.05, 0.01 或 0.10),我们便拒绝原假设,认为有足够的统计证据支持备择假设。
## 关键分类维度
选择正确的两样本检验方法取决于以下几个关键因素:
1. 检验目标:是比较均值、中位数、方差还是比例? 2. 样本关系:样本是 独立样本 (Independent Samples) 还是 配对样本 (Paired Samples)? * 独立样本:两个样本中的观测值是相互独立的。例如,随机抽取两组病人,一组服用新药,另一组服用安慰剂,这两组的健康指标即为独立样本。 * 配对样本(或相关样本, Dependent Samples):两个样本中的观测值存在一一对应的关系。例如,同一组病人在服药前和服药后的健康指标,或者对双胞胎分别进行不同处理后的结果。 3. 总体分布的假设:检验方法是否对总体的数据分布(如{{{正态分布}}})有特定要求?这区分了 {{{参数检验}}} (Parametric Tests) 和 {{{非参数检验}}} (Non-parametric Tests)。
---
## 常用两样本检验方法详解
### (一) 比较总体均值
#### 1. 独立样本t检验 (Independent Samples t-test)
这是最常用的比较两个独立总体均值的方法。它假设数据来自{{{正态分布}}}的总体。
* 目标:检验 $H_0: \mu_1 = \mu_2$。 * 核心假设: 1. 两个样本是相互独立的随机样本。 2. 两个总体均服从正态分布。对于大样本(根据{{{中心极限定理}}},通常 $n_1 > 30$ 且 $n_2 > 30$),此假设可以放宽。 3. 两总体方差的关系(相等或不相等)。
* 具体方法: * 情况A:两总体方差相等 ($ \sigma_1^2 = \sigma_2^2 $) 首先使用一个合并样本方差 (Pooled Sample Variance) $S_p^2$ 来估计共同的方差 $\sigma^2$: $$ S_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2} $$ 其中 $s_1^2$ 和 $s_2^2$ 分别是两个样本的方差。 检验统计量 $t$ 服从{{{自由度}}}为 $df = n_1+n_2-2$ 的{{{t分布}}}: $$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$ 在 $H_0: \mu_1 = \mu_2$ 下,$(\mu_1 - \mu_2)_0 = 0$。
* 情况B:两总体方差不相等 ($ \sigma_1^2 \neq \sigma_2^2 $) - Welch's t-test 当两总体方差不相等时,使用 Welch's t-test,它不使用合并方差。检验统计量为: $$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} $$ 其自由度由 Welch-Satterthwaite 公式近似计算,结果通常不是整数。 注意:在实际应用中,通常推荐先进行方差齐性检验(如Levene检验),或者直接使用Welch's t-test,因为它在方差相等时表现与标准t检验相近,而在方差不等时更为稳健。
#### 2. 配对样本t检验 (Paired Samples t-test)
* 目标:检验配对样本的均值差异是否为零。 * 适用场景:前-后测量、匹配对设计等。 * 方法:该检验的本质是将问题转化为 单样本t检验。首先计算每对观测值的差值 $d_i = x_{i,1} - x_{i,2}$,形成一个差值样本 $\{d_1, d_2, $...$, d_n\}$。然后检验这个差值样本的均值 $\mu_d$ 是否等于0。 * 假设:$H_0: \mu_d = 0$ vs. $H_1: \mu_d \neq 0$。 * 核心假设:差值 $d_i$ 来自一个服从正态分布的总体。 * 检验统计量: $$ t = \frac{\bar{d} - 0}{s_d / \sqrt{n}} $$ 其中 $\bar{d}$ 是差值的样本均值,$s_d$ 是差值的样本标准差,$n$ 是配对的数目。该统计量服从自由度为 $df = n-1$ 的t分布。
#### 3. 两样本Z检验 (Two-Sample Z-test)
* 目标:比较两个独立总体的均值。 * 适用场景:这是一个理论上重要但在实践中较少使用的方法,因为它要求 两总体的方差 $ \sigma_1^2 $ 和 $ \sigma_2^2 $ 已知。 * 检验统计量: $$ Z = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} $$ 该统计量服从{{{标准正态分布}}}。
### (二) 比较总体均值/中位数的非参数方法
当t检验的正态性假设不被满足时(尤其是小样本情况),或者数据是序数类型时,应使用非参数方法。
#### 1. 曼-惠特尼U检验 (Mann-Whitney U Test)
也称为Wilcoxon秩和检验,是独立样本t检验的非参数替代方法。
* 目标:检验两个独立总体的分布位置是否存在差异。它检验的不是均值,而是两个总体产生一个比另一个更大(或更小)的观测值的概率。如果两个总体分布形状相似,它可以被看作是比较{{{中位数}}}。 * 方法:将两个样本的数据混合并按大小排序,然后计算其中一个样本的秩次之和。检验统计量U基于这个秩和计算。
#### 2. 威尔科克森符号秩检验 (Wilcoxon Signed-Rank Test)
是配对样本t检验的非参数替代方法。
* 目标:检验配对差值的分布是否对称地围绕0。 * 方法:计算每对样本的差值,忽略差值为0的对,然后对差值的绝对值进行排序,并根据差值的正负号赋予符号。检验统计量基于这些带符号的秩次之和。
### (三) 比较总体方差
#### 1. F检验 (F-test for Equality of Variances)
* 目标:检验 $H_0: \sigma_1^2 = \sigma_2^2$。 * 适用场景:常作为独立样本t检验(方差相等模型)的前置步骤。 * 核心假设:两个独立样本均来自正态分布的总体。该检验对正态性假设非常敏感。 * 检验统计量: $$ F = \frac{s_1^2}{s_2^2} $$ 其中 $s_1^2$ 是较大的样本方差。该统计量服从分子自由度为 $df_1 = n_1-1$、分母自由度为 $df_2 = n_2-1$ 的{{{F分布}}}。
#### 2. Levene检验 (Levene's Test)
* 目标:检验 $H_0: \sigma_1^2 = \sigma_2^2$。 * 优点:与F检验相比,Levene检验对数据偏离正态分布的情况更为{{{稳健}}} (Robust)。因此在实践中更受推荐。 * 方法:它不直接比较样本方差,而是对每个样本内的观测值与其组均值(或中位数)之差的绝对值进行{{{方差分析}}} (ANOVA)。
### (四) 比较总体比例
#### 1. 两样本比例Z检验 (Two-Proportion Z-test)
* 目标:比较两个独立总体的比例,检验 $H_0: p_1 = p_2$。 * 适用场景:用于二元分类数据,如投票率、产品合格率等。 * 核心假设:样本量足够大,通常要求 $n_1p_1, n_1(1-p_1), n_2p_2, n_2(1-p_2)$ 均大于等于5或10。 * 方法:首先计算一个合并样本比例 $\hat{p}$: $$ \hat{p} = \frac{x_1 + x_2}{n_1 + n_2} = \frac{n_1\hat{p}_1 + n_2\hat{p}_2}{n_1 + n_2} $$ 其中 $x_1, x_2$ 分别是两个样本中具有特定属性的观测数,$\hat{p}_1, \hat{p}_2$ 是样本比例。 检验统计量 $Z$ 服从标准正态分布: $$ Z = \frac{(\hat{p}_1 - \hat{p}_2) - 0}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} $$
#### 2. 卡方检验 (Chi-squared Test)
* 目标:检验两个(或多个)分类变量之间是否独立。当用于两个二元分类变量时,它等价于两样本比例Z检验。 * 方法:数据被组织在一个 $2 \times 2$ 的{{{列联表}}} (Contingency Table) 中。卡方检验比较观测频数与在原假设(比例相等)成立下的期望频数之间的差异。 $$ \chi^2 = \sum \frac{(\text{Observed} - \text{Expected})^2}{\text{Expected}} $$ 该统计量近似服从自由度为 $df=(行数-1)\times(列数-1)$ 的{{{卡方分布}}}。对于 $2 \times 2$ 表,自由度为1。
## 如何选择合适的检验方法?(决策流程)
1. 确定研究问题:你的目标是比较均值(或中位数),方差,还是比例? * 均值/中位数 -> 前往步骤2。 * 方差 -> 选择F检验(若数据正态)或Levene检验(更稳健)。 * 比例 -> 选择两样本比例Z检验或卡方检验。
2. 确定样本关系:你的数据是独立样本还是配对样本? * 独立样本 -> 前往步骤3。 * 配对样本 -> 检查正态性。 * 差值呈正态分布 -> 使用 配对样本t检验。 * 差值非正态 -> 使用 威尔科克森符号秩检验。
3. 检查独立样本的假设: * 检查两个样本是否服从正态分布(可通过夏皮罗-威尔克检验或Q-Q图)。 * 如果 满足正态性假设(或样本量足够大): 1. 进行方差齐性检验(如Levene检验)。 2. 若方差相等 -> 使用 标准独立样本t检验(合并方差)。 3. 若方差不相等 -> 使用 Welch's t-test。 * 如果 不满足正态性假设(尤其是小样本): * 使用 曼-惠特尼U检验。
## 总结表
| 检验目标 | 样本关系 | 主要假设 | 参数检验方法 | 非参数替代方法 | | :--- | :--- | :--- | :--- | :--- | | **比较均值** | 独立样本 | 正态性,方差齐性 | **独立样本t检验** (方差相等/不等) | **曼-惠特尼U检验** | | **比较均值** | 配对样本 | 差值呈正态分布 | **配对样本t检验** | **威尔科克森符号秩检验** | | **比较方差** | 独立样本 | 正态性 | **F检验** | **Levene检验** (更稳健) | | **比较比例** | 独立样本 | 大样本 | **两样本比例Z检验** / **卡方检验** | (Fisher's精确检验,用于小样本) |