两样本Z检验 (Two-Sample Z-Test)
两样本Z检验是比较两个独立总体均值差异的参数检验方法,其检验统计量在零假设下服从标准正态分布。它是Z检验从单样本向两样本的自然推广,核心场景是:已知两个总体的方差(或标准差),通过两组独立样本判断它们的均值是否存在显著差异。
适用条件与前提
两样本Z检验的严格有效性依赖于以下条件:
- 总体方差已知:σ12 与 σ22 必须事先已知,这是Z检验区别于t检验的最根本特征。实践中这一条件苛刻——方差极少确切已知——但在工业质量控制(长期积累的工序标准差)、标准化考试的测量标准误、或大规模普查数据中可能近似满足。
- 独立性:两组样本内部以及组间必须相互独立。通常依赖随机抽样或随机分配来保证。
- 正态性或大样本:若两总体服从正态分布,则无论样本量大小,检验统计量精确服从标准正态分布。若总体非正态,中心极限定理保证当两组样本量均足够大(通常 n1≥30 且 n2≥30)时,样本均值之差近似服从正态分布,检验仍近似有效。
若总体方差未知而改用样本方差估计,则检验退化为两样本t检验(Welch t检验或合并方差t检验),这是应用研究中的默认选择。
检验统计量
设两组独立样本的容量分别为 n1 和 n2,样本均值为 Xˉ1 和 Xˉ2,已知总体方差为 σ12 和 σ22。待检验的零假设通常为:
H0:μ1−μ2=d0
其中 d0 为假设的差异值(最常见的是 d0=0,即检验两总体均值是否相等)。检验统计量为:
Z=n1σ12+n2σ22(Xˉ1−Xˉ2)−d0
分母 n1σ12+n2σ22 是两样本均值之差的标准误(Standard Error of the Difference)。它与单样本Z检验在逻辑上完全一致:分子是"观测差异减去假设差异",分母是"该差异的标准误差",Z值衡量了观测差异相对于抽样波动的规模。
在 H0:μ1−μ2=0 的特殊情形下,统计量简化为:
Z=n1σ12+n2σ22Xˉ1−Xˉ2
检验步骤与决策规则
两样本Z检验遵循标准假设检验程序:
- 陈述假设:H0:μ1−μ2=d0(通常 d0=0),备择假设 Ha 可为双侧(μ1=μ2)、左尾(μ1<μ2)或右尾(μ1>μ2)。
- 设定显著性水平 α(如 0.05)。
- 计算Z统计量:代入样本数据。
- 做出决策: \begin{itemize}
- 临界值法:双侧检验比较 ∣Z∣ 与 zα/2(如 α=0.05 时 z0.025=1.96);单侧检验比较 Z 与 zα。
- P值法:p=2[1−Φ(∣Z∣)](双侧),或 p=1−Φ(Z)(右尾),若 p≤α 则拒绝 H0,其中 Φ 为标准正态累积分布函数。 \end{itemize}
置信区间
与单样本情形一样,两样本Z检验与置信区间存在严格对偶关系。两总体均值之差 μ1−μ2 的 100(1−α)% 置信区间为:
(Xˉ1−Xˉ2)±zα/2⋅n1σ12+n2σ22
若 d0 落入该区间,则在 α 水平下不拒绝 H0:μ1−μ2=d0;反之则拒绝。置信区间比二分决策更具信息量——它同时展示了效应量的大小、方向和精度,因此报告时应优先给出区间估计而非仅报告"是否显著"。
数值示例
假设某教育研究者比较两所学校的标准化数学成绩。学校A的总体标准差已知为 σ1=15,学校B为 σ2=12。从学校A随机抽取 n1=50 名学生,平均分 Xˉ1=78;学校B抽取 n2=45 名学生,平均分 Xˉ2=72。问两校平均成绩是否存在显著差异(α=0.05)?
计算Z统计量:
Z=50152+4512278−72=4.5+3.26=7.76≈2.7756≈2.162
双侧检验中 ∣Z∣=2.162>z0.025=1.96,故拒绝 H0。p值 ≈0.0306<0.05。95\% 置信区间为 6±1.96×2.775≈(0.56,11.44)——两校平均差异的估计区间完全在零上方,进一步支持结论。
与两样本t检验的关系
两样本Z检验与两样本t检验的核心区别在于对总体方差的信息假设:
- Z检验:σ12,σ22 已知 → 检验统计量精确(正态总体时)或近似(大样本时)服从 N(0,1)。
- Welch t检验:σ12,σ22 未知,以样本方差 s12,s22 替代 → 检验统计量近似服从 t 分布,自由度由 Welch-Satterthwaite 公式近似。
- 合并方差t检验:σ12,σ22 未知但假设相等(σ12=σ22=σ2)→ 以合并样本方差 sp2 估计 σ2,检验统计量服从 tn1+n2−2 分布。
实际上,总体方差几乎不可能确切已知。因此两样本Z检验更多作为教学工具——帮助初学者在不受自由度与t分布复杂性干扰的情况下,直观理解"标准化差异"这一检验思想——然后在掌握概念后过渡到更为实用的t检验框架。当两组样本量都很大时(如 n1,n2>100),t分布的分位数与标准正态十分接近,Z检验与t检验在数值上几乎等价,但理论上前者仍以方差已知为前提。
比例两样本Z检验
两样本Z检验的另一重要变体是两样本比例Z检验,用于比较两个二项总体的成功概率 p1 与 p2。此时检验统计量为:
Z=p^(1−p^)(n11+n21)p^1−p^2
其中 p^1,p^2 为样本比例,p^ 为在 H0:p1=p2 下的合并比例估计:p^=(x1+x2)/(n1+n2)。这是A/B测试、临床试验和民意调查中比较两组转化率或响应率的标准工具。
小结
两样本Z检验将单样本标准化的逻辑推广到两个总体的比较:用已知的总体方差构建两组均值差异的标准化度量,在标准正态分布下进行推断。虽然其"方差已知"的前提限制了对现实数据的直接适用性,但它在概念上的清晰性——剥离了方差估计和自由度的额外复杂度——使其成为统计推断教学体系中不可或缺的桥梁节点,帮助学习者从单样本扩展到两样本,从Z框架平滑过渡到t框架。