# 两独立正态总体参数的估计与检验 (Estimation and Hypothesis Testing for Two Independent Normal Populations)
在{{{数理统计}}}和应用统计中,比较两个不同总体的特征是一个非常常见的问题。例如,我们可能想比较一种新药的疗效与安慰剂的疗效、男性与女性的平均收入、两个不同生产线的产品合格率等。当这两个总体都服从{{{正态分布}}},并且我们从中抽取的样本是相互独立的,我们就可以使用一套标准的统计方法来对它们之间的差异进行推断。
本词条将系统介绍比较两个独立正态总体的参数——即{{{总体均值}}} ($\mu$) 和{{{总体方差}}} ($\sigma^2$)——的{{{参数估计}}}和{{{假设检验}}}方法。
基本设定: 假设我们有两个独立的总体,总体1和总体2。 * 总体1服从正态分布 $N(\mu_1, \sigma_1^2)$。 * 总体2服从正态分布 $N(\mu_2, \sigma_2^2)$。
我们从这两个总体中分别抽取{{{独立随机样本}}}: * 来自总体1的样本:$X_1, X_2, \dots, X_{n_1}$,样本大小为 $n_1$。其{{{样本均值}}}为 $\bar{X}$,{{{样本方差}}}为 $S_1^2$。 * 来自总体2的样本:$Y_1, Y_2, \dots, Y_{n_2}$,样本大小为 $n_2$。其{{{样本均值}}}为 $\bar{Y}$,{{{样本方差}}}为 $S_2^2$。
由于两个总体是独立的,因此这两个样本也相互独立。
## 一. 两个总体方差的比较 (Comparison of Two Population Variances)
在比较两个总体均值之前,通常需要先判断它们的方差是否相等。这是因为比较均值的方法会根据方差是否相等而有所不同。比较方差本身在某些场景下也具有实际意义,例如在质量控制中比较两种工艺的稳定性。
### 1.1 方差比的假设检验 (Hypothesis Test for the Ratio of Variances)
我们通过检验方差之比是否为1来判断方差是否相等。 * 原假设 ($H_0$): $\sigma_1^2 = \sigma_2^2$ (或 $\sigma_1^2 / \sigma_2^2 = 1$)。 * 备择假设 ($H_1$): * $\sigma_1^2 \neq \sigma_2^2$ (双侧检验) * $\sigma_1^2 > \sigma_2^2$ (单侧检验) * $\sigma_1^2 < \sigma_2^2$ (单侧检验)
检验统计量: 该检验基于这样一个事实:两个独立正态总体的样本方差之比,服从{{{F-分布}}}。检验统计量 $F$ 定义为: $$ F = \frac{S_1^2}{S_2^2} $$ 在原假设 $H_0$ 成立的条件下,该统计量服从分子{{{自由度}}}为 $df_1 = n_1-1$,分母自由度为 $df_2 = n_2-1$ 的F-分布,记为 $F \sim F(n_1-1, n_2-1)$。
决策规则 (显著性水平为 $\alpha$): * 对于 $H_1: \sigma_1^2 \neq \sigma_2^2$,如果计算出的 $F > F_{\alpha/2}(n_1-1, n_2-1)$ 或者 $F < F_{1-\alpha/2}(n_1-1, n_2-1)$,则拒绝 $H_0$。 * 对于 $H_1: \sigma_1^2 > \sigma_2^2$,如果 $F > F_{\alpha}(n_1-1, n_2-1)$,则拒绝 $H_0$。 * 对于 $H_1: \sigma_1^2 < \sigma_2^2$,如果 $F < F_{1-\alpha}(n_1-1, n_2-1)$,则拒绝 $H_0$。 此外,我们也可以通过计算{{{p-值}}}来进行决策。如果 p-值小于 $\alpha$,则拒绝 $H_0$。
### 1.2 方差比的置信区间 (Confidence Interval for the Ratio of Variances)
我们可以为方差比 $\sigma_1^2 / \sigma_2^2$ 构建一个置信水平为 $1-\alpha$ 的{{{置信区间}}}。 $$ \frac{S_1^2 / S_2^2}{F_{\alpha/2}(n_1-1, n_2-1)} < \frac{\sigma_1^2}{\sigma_2^2} < \frac{S_1^2 / S_2^2}{F_{1-\alpha/2}(n_1-1, n_2-1)} $$ 如果这个区间包含1,我们通常没有足够的证据认为两个总体的方差不相等。
## 二. 两个总体均值之差的推断 (Inference on the Difference in Two Population Means)
这是实践中最常遇到的问题。我们将根据总体方差 $\sigma_1^2$ 和 $\sigma_2^2$ 是否已知、是否相等,分为以下几种情况。
### 2.1 情况一:两总体方差已知
这种情况在现实中非常罕见,但它为理解更复杂的情况提供了理论基础。 根据正态分布的性质,我们知道 $\bar{X} \sim N(\mu_1, \sigma_1^2/n_1)$ 且 $\bar{Y} \sim N(\mu_2, \sigma_2^2/n_2)$。由于样本独立,因此它们的差 $\bar{X} - \bar{Y}$ 也服从正态分布: $$ \bar{X} - \bar{Y} \sim N\left(\mu_1 - \mu_2, \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}\right) $$ 检验统计量 (Z-检验): 我们可以构建一个服从标准正态分布 $N(0,1)$ 的{{{Z-检验}}}统计量: $$ Z = \frac{(\bar{X}-\bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} $$ 在检验 $H_0: \mu_1=\mu_2$ 时,$\mu_1 - \mu_2 = 0$。
置信区间: $\mu_1 - \mu_2$ 的置信水平为 $1-\alpha$ 的置信区间为: $$ (\bar{X} - \bar{Y}) \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} $$ 其中 $z_{\alpha/2}$ 是标准正态分布的上 $\alpha/2$ 分位数。
注意:当样本量 $n_1$ 和 $n_2$ 足够大(通常认为 > 30)时,根据{{{中心极限定理}}},即使总体不服从正态分布,我们也可以用样本方差 $S_1^2$ 和 $S_2^2$ 替代未知的总体方差 $\sigma_1^2$ 和 $\sigma_2^2$,并近似使用Z检验。
### 2.2 情况二:两总体方差未知但相等 ($\sigma_1^2 = \sigma_2^2 = \sigma^2$)
这是进行{{{t-检验}}}的经典情景。当F检验的结果不拒绝“方差相等”的原假设时,我们采用此方法。 首先,我们需要一个对共同方差 $\sigma^2$ 的更好估计。这个估计量被称为合并方差估计 (Pooled Variance Estimator),记为 $S_p^2$: $$ S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2} $$ $S_p^2$ 是 $S_1^2$ 和 $S_2^2$ 的加权平均,权重由各自的自由度决定。
检验统计量 (合并t检验, Pooled t-test): 在此情况下,检验统计量服从自由度为 $df = n_1+n_2-2$ 的{{{t-分布}}}: $$ t = \frac{(\bar{X}-\bar{Y}) - (\mu_1 - \mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$ 置信区间: $\mu_1 - \mu_2$ 的置信水平为 $1-\alpha$ 的置信区间为: $$ (\bar{X} - \bar{Y}) \pm t_{\alpha/2, n_1+n_2-2} \cdot S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} $$ 其中 $t_{\alpha/2, n_1+n_2-2}$ 是自由度为 $n_1+n_2-2$ 的t-分布的上 $\alpha/2$ 分位数。
### 2.3 情况三:两总体方差未知且不相等 ($\sigma_1^2 \neq \sigma_2^2$)
当F检验的结果拒绝“方差相等”的原假设时,我们不能再使用合并方差估计。这个问题被称为{{{Behrens-Fisher问题}}}。此时,精确的t-分布不再适用,但我们可以使用一个非常好的近似方法,即 Welch's t-test。
检验统计量 (Welch's t-test): 检验统计量的形式类似于Z统计量,但使用样本方差代替总体方差: $$ t = \frac{(\bar{X}-\bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} $$ 这个统计量近似服从t-分布,但其自由度 $\nu$ 需要通过{{{Welch-Satterthwaite方程}}}来估计: $$ \nu \approx \frac{\left(\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1} + \frac{(S_2^2/n_2)^2}{n_2-1}} $$ 计算出的自由度 $\nu$ 通常不是整数,在查表或使用软件时,可以取最接近的整数或直接向下取整。
置信区间: $\mu_1 - \mu_2$ 的置信水平为 $1-\alpha$ 的近似置信区间为: $$ (\bar{X} - \bar{Y}) \pm t_{\alpha/2, \nu} \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}} $$
## 三. 总结与实践建议
在处理两独立正态总体的比较问题时,可以遵循以下决策流程: 1. 检验方差齐性:首先使用F检验来判断两个总体的方差是否相等。 2. 选择合适的t检验: * 如果F检验结果表明方差相等(p-值 > $\alpha$),则使用合并t检验 (Pooled t-test)。 * 如果F检验结果表明方差不相等(p-值 $\le$ $\alpha$),则使用 Welch's t-test。
现代观点:许多统计学家主张,无论F检验的结果如何,都默认使用 Welch's t-test。这是因为它在方差不相等时能很好地控制{{{第一类错误}}}率,而在方差实际上相等时,其功效损失也非常小。因此,它被认为是一种更稳健、更安全的选择。
最后需要强调,本词条讨论的方法严格依赖于样本独立性和总体正态性的假设。如果样本是相关的(例如,对同一组对象进行前后两次测量),则应使用{{{配对t检验}}}。如果总体严重偏离正态分布且样本量较小,则应考虑使用非参数方法(如Wilcoxon秩和检验)。