ARTICLE

两样本Z检验

两样本Z检验 (Two-Sample Z-Test) 两样本Z检验是比较两个独立总体均值差异的参数检验方法,其检验统计量在零假设下服从标准正态分布。它是Z检验从单样本向两样本的自然推广,核心场景是:已知两个总体的方差(或标准差),通过两组独立样本判断它们的均值是否存在显著差异。 适用条件与前提 两样本Z检验的严格有效性依赖于以下条件: 总体方差已知: _1^

浏览 0 更新 2025-10-26

两样本Z检验 (Two-Sample Z-Test)

两样本Z检验是比较两个独立总体均值差异的参数检验方法,其检验统计量在零假设下服从标准正态分布。它是Z检验从单样本向两样本的自然推广,核心场景是:已知两个总体的方差(或标准差),通过两组独立样本判断它们的均值是否存在显著差异。

适用条件与前提

两样本Z检验的严格有效性依赖于以下条件:

  • 总体方差已知σ12 \sigma_1^2 σ22 \sigma_2^2 必须事先已知,这是Z检验区别于t检验的最根本特征。实践中这一条件苛刻——方差极少确切已知——但在工业质量控制(长期积累的工序标准差)、标准化考试的测量标准误、或大规模普查数据中可能近似满足。
  • 独立性:两组样本内部以及组间必须相互独立。通常依赖随机抽样或随机分配来保证。
  • 正态性或大样本:若两总体服从正态分布,则无论样本量大小,检验统计量精确服从标准正态分布。若总体非正态,中心极限定理保证当两组样本量均足够大(通常 n130 n_1 \ge 30 n230 n_2 \ge 30 )时,样本均值之差近似服从正态分布,检验仍近似有效。

若总体方差未知而改用样本方差估计,则检验退化为两样本t检验(Welch t检验或合并方差t检验),这是应用研究中的默认选择。

检验统计量

设两组独立样本的容量分别为 n1 n_1 n2 n_2 ,样本均值为 Xˉ1 \bar{X}_1 Xˉ2 \bar{X}_2 ,已知总体方差为 σ12 \sigma_1^2 σ22 \sigma_2^2 。待检验的零假设通常为:

H0:μ1μ2=d0H_0: \mu_1 - \mu_2 = d_0

其中 d0 d_0 为假设的差异值(最常见的是 d0=0 d_0 = 0 ,即检验两总体均值是否相等)。检验统计量为:

Z=(Xˉ1Xˉ2)d0σ12n1+σ22n2Z = \frac{(\bar{X}_1 - \bar{X}_2) - d_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}

分母 σ12n1+σ22n2 \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} 是两样本均值之差的标准误(Standard Error of the Difference)。它与单样本Z检验在逻辑上完全一致:分子是"观测差异减去假设差异",分母是"该差异的标准误差",Z值衡量了观测差异相对于抽样波动的规模。

H0:μ1μ2=0 H_0: \mu_1 - \mu_2 = 0 的特殊情形下,统计量简化为:

Z=Xˉ1Xˉ2σ12n1+σ22n2Z = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}

检验步骤与决策规则

两样本Z检验遵循标准假设检验程序:

  1. 陈述假设H0:μ1μ2=d0 H_0: \mu_1 - \mu_2 = d_0 (通常 d0=0 d_0 = 0 ),备择假设 Ha H_a 可为双侧(μ1μ2 \mu_1 \neq \mu_2 )、左尾(μ1<μ2 \mu_1 < \mu_2 )或右尾(μ1>μ2 \mu_1 > \mu_2 )。
  2. 设定显著性水平 α \alpha (如 0.05)。
  3. 计算Z统计量:代入样本数据。
  4. 做出决策: \begin{itemize}
  5. 临界值法:双侧检验比较 Z |Z| zα/2 z_{\alpha/2} (如 α=0.05 \alpha=0.05 z0.025=1.96 z_{0.025} = 1.96 );单侧检验比较 Z Z zα z_\alpha
  6. P值法p=2[1Φ(Z)] p = 2[1 - \Phi(|Z|)] (双侧),或 p=1Φ(Z) p = 1 - \Phi(Z) (右尾),若 pα p \le \alpha 则拒绝 H0 H_0 ,其中 Φ \Phi 为标准正态累积分布函数。 \end{itemize}

置信区间

与单样本情形一样,两样本Z检验与置信区间存在严格对偶关系。两总体均值之差 μ1μ2 \mu_1 - \mu_2 100(1α)% 100(1-\alpha)\% 置信区间为:

(Xˉ1Xˉ2)±zα/2σ12n1+σ22n2(\bar{X}_1 - \bar{X}_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}

d0 d_0 落入该区间,则在 α \alpha 水平下不拒绝 H0:μ1μ2=d0 H_0: \mu_1 - \mu_2 = d_0 ;反之则拒绝。置信区间比二分决策更具信息量——它同时展示了效应量的大小、方向和精度,因此报告时应优先给出区间估计而非仅报告"是否显著"。

数值示例

假设某教育研究者比较两所学校的标准化数学成绩。学校A的总体标准差已知为 σ1=15 \sigma_1 = 15 ,学校B为 σ2=12 \sigma_2 = 12 。从学校A随机抽取 n1=50 n_1 = 50 名学生,平均分 Xˉ1=78 \bar{X}_1 = 78 ;学校B抽取 n2=45 n_2 = 45 名学生,平均分 Xˉ2=72 \bar{X}_2 = 72 。问两校平均成绩是否存在显著差异(α=0.05 \alpha = 0.05 )?

计算Z统计量:

Z=787215250+12245=64.5+3.2=67.762.7752.162Z = \frac{78 - 72}{\sqrt{\frac{15^2}{50} + \frac{12^2}{45}}} = \frac{6}{\sqrt{4.5 + 3.2}} = \frac{6}{\sqrt{7.7}} \approx \frac{6}{2.775} \approx 2.162

双侧检验中 Z=2.162>z0.025=1.96 |Z| = 2.162 > z_{0.025} = 1.96 ,故拒绝 H0 H_0 。p值 0.0306<0.05 \approx 0.0306 < 0.05 。95\% 置信区间为 6±1.96×2.775(0.56,11.44) 6 \pm 1.96 \times 2.775 \approx (0.56, 11.44) ——两校平均差异的估计区间完全在零上方,进一步支持结论。

与两样本t检验的关系

两样本Z检验与两样本t检验的核心区别在于对总体方差的信息假设:

  • Z检验σ12,σ22 \sigma_1^2, \sigma_2^2 已知 → 检验统计量精确(正态总体时)或近似(大样本时)服从 N(0,1) N(0,1)
  • Welch t检验σ12,σ22 \sigma_1^2, \sigma_2^2 未知,以样本方差 s12,s22 s_1^2, s_2^2 替代 → 检验统计量近似服从 t t 分布,自由度由 Welch-Satterthwaite 公式近似。
  • 合并方差t检验σ12,σ22 \sigma_1^2, \sigma_2^2 未知但假设相等(σ12=σ22=σ2 \sigma_1^2 = \sigma_2^2 = \sigma^2 )→ 以合并样本方差 sp2 s_p^2 估计 σ2 \sigma^2 ,检验统计量服从 tn1+n22 t_{n_1 + n_2 - 2} 分布。

实际上,总体方差几乎不可能确切已知。因此两样本Z检验更多作为教学工具——帮助初学者在不受自由度与t分布复杂性干扰的情况下,直观理解"标准化差异"这一检验思想——然后在掌握概念后过渡到更为实用的t检验框架。当两组样本量都很大时(如 n1,n2>100 n_1, n_2 > 100 ),t分布的分位数与标准正态十分接近,Z检验与t检验在数值上几乎等价,但理论上前者仍以方差已知为前提。

比例两样本Z检验

两样本Z检验的另一重要变体是两样本比例Z检验,用于比较两个二项总体的成功概率 p1 p_1 p2 p_2 。此时检验统计量为:

Z=p^1p^2p^(1p^)(1n1+1n2)Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}

其中 p^1,p^2 \hat{p}_1, \hat{p}_2 为样本比例,p^ \hat{p} 为在 H0:p1=p2 H_0: p_1 = p_2 下的合并比例估计:p^=(x1+x2)/(n1+n2) \hat{p} = (x_1 + x_2)/(n_1 + n_2) 。这是A/B测试、临床试验和民意调查中比较两组转化率或响应率的标准工具。

小结

两样本Z检验将单样本标准化的逻辑推广到两个总体的比较:用已知的总体方差构建两组均值差异的标准化度量,在标准正态分布下进行推断。虽然其"方差已知"的前提限制了对现实数据的直接适用性,但它在概念上的清晰性——剥离了方差估计和自由度的额外复杂度——使其成为统计推断教学体系中不可或缺的桥梁节点,帮助学习者从单样本扩展到两样本,从Z框架平滑过渡到t框架。