ARTICLE

两样本Z检验

两样本Z检验 (Two-Sample Z-Test) 两样本Z检验是比较两个独立总体均值差异的参数检验方法，其检验统计量在零假设下服从标准正态分布。它是Z检验从单样本向两样本的自然推广，核心场景是：已知两个总体的方差（或标准差），通过两组独立样本判断它们的均值是否存在显著差异。适用条件与前提两样本Z检验的严格有效性依赖于以下条件：总体方差已知：公式

浏览 0 更新 2025-10-26

两样本Z检验 (Two-Sample Z-Test)

两样本Z检验是比较两个独立总体均值差异的参数检验方法，其检验统计量在零假设下服从标准正态分布。它是Z检验从单样本向两样本的自然推广，核心场景是：已知两个总体的方差（或标准差），通过两组独立样本判断它们的均值是否存在显著差异。

适用条件与前提

两样本Z检验的严格有效性依赖于以下条件：

总体方差已知： $\sigma_1^2$ 与 $\sigma_2^2$ 必须事先已知，这是Z检验区别于t检验的最根本特征。实践中这一条件苛刻——方差极少确切已知——但在工业质量控制（长期积累的工序标准差）、标准化考试的测量标准误、或大规模普查数据中可能近似满足。
独立性：两组样本内部以及组间必须相互独立。通常依赖随机抽样或随机分配来保证。
正态性或大样本：若两总体服从正态分布，则无论样本量大小，检验统计量精确服从标准正态分布。若总体非正态，中心极限定理保证当两组样本量均足够大（通常 $n_1 \ge 30$ 且 $n_2 \ge 30$ ）时，样本均值之差近似服从正态分布，检验仍近似有效。

若总体方差未知而改用样本方差估计，则检验退化为两样本t检验（Welch t检验或合并方差t检验），这是应用研究中的默认选择。

检验统计量

设两组独立样本的容量分别为 $n_1$ 和 $n_2$ ，样本均值为 $\bar{X}_1$ 和 $\bar{X}_2$ ，已知总体方差为 $\sigma_1^2$ 和 $\sigma_2^2$ 。待检验的零假设通常为：

H_0: \mu_1 - \mu_2 = d_0

其中 $d_0$ 为假设的差异值（最常见的是 $d_0 = 0$ ，即检验两总体均值是否相等）。检验统计量为：

Z = \frac{(\bar{X}_1 - \bar{X}_2) - d_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}

分母 $\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$ 是两样本均值之差的标准误（Standard Error of the Difference）。它与单样本Z检验在逻辑上完全一致：分子是"观测差异减去假设差异"，分母是"该差异的标准误差"，Z值衡量了观测差异相对于抽样波动的规模。

在 $H_0: \mu_1 - \mu_2 = 0$ 的特殊情形下，统计量简化为：

Z = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}

检验步骤与决策规则

两样本Z检验遵循标准假设检验程序：

陈述假设： $H_0: \mu_1 - \mu_2 = d_0$ （通常 $d_0 = 0$ ），备择假设 $H_a$ 可为双侧（ $\mu_1 \neq \mu_2$ ）、左尾（ $\mu_1 < \mu_2$ ）或右尾（ $\mu_1 > \mu_2$ ）。
设定显著性水平 $\alpha$ （如 0.05）。
计算Z统计量：代入样本数据。
做出决策： \begin{itemize}
临界值法：双侧检验比较 $|Z|$ 与 $z_{\alpha/2}$ （如 $\alpha=0.05$ 时 $z_{0.025} = 1.96$ ）；单侧检验比较 $Z$ 与 $z_\alpha$ 。
P值法： $p = 2[1 - \Phi(|Z|)]$ （双侧），或 $p = 1 - \Phi(Z)$ （右尾），若 $p \le \alpha$ 则拒绝 $H_0$ ，其中 $\Phi$ 为标准正态累积分布函数。 \end{itemize}

置信区间

与单样本情形一样，两样本Z检验与置信区间存在严格对偶关系。两总体均值之差 $\mu_1 - \mu_2$ 的 $100(1-\alpha)\%$ 置信区间为：

(\bar{X}_1 - \bar{X}_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}

若 $d_0$ 落入该区间，则在 $\alpha$ 水平下不拒绝 $H_0: \mu_1 - \mu_2 = d_0$ ；反之则拒绝。置信区间比二分决策更具信息量——它同时展示了效应量的大小、方向和精度，因此报告时应优先给出区间估计而非仅报告"是否显著"。

数值示例

假设某教育研究者比较两所学校的标准化数学成绩。学校A的总体标准差已知为 $\sigma_1 = 15$ ，学校B为 $\sigma_2 = 12$ 。从学校A随机抽取 $n_1 = 50$ 名学生，平均分 $\bar{X}_1 = 78$ ；学校B抽取 $n_2 = 45$ 名学生，平均分 $\bar{X}_2 = 72$ 。问两校平均成绩是否存在显著差异（ $\alpha = 0.05$ ）？

计算Z统计量：

Z = \frac{78 - 72}{\sqrt{\frac{15^2}{50} + \frac{12^2}{45}}} = \frac{6}{\sqrt{4.5 + 3.2}} = \frac{6}{\sqrt{7.7}} \approx \frac{6}{2.775} \approx 2.162

双侧检验中 $|Z| = 2.162 > z_{0.025} = 1.96$ ，故拒绝 $H_0$ 。p值 $\approx 0.0306 < 0.05$ 。95\% 置信区间为 $6 \pm 1.96 \times 2.775 \approx (0.56, 11.44)$ ——两校平均差异的估计区间完全在零上方，进一步支持结论。

与两样本t检验的关系

两样本Z检验与两样本t检验的核心区别在于对总体方差的信息假设：

Z检验： $\sigma_1^2, \sigma_2^2$ 已知 → 检验统计量精确（正态总体时）或近似（大样本时）服从 $N(0,1)$ 。
Welch t检验： $\sigma_1^2, \sigma_2^2$ 未知，以样本方差 $s_1^2, s_2^2$ 替代 → 检验统计量近似服从 $t$ 分布，自由度由 Welch-Satterthwaite 公式近似。
合并方差t检验： $\sigma_1^2, \sigma_2^2$ 未知但假设相等（ $\sigma_1^2 = \sigma_2^2 = \sigma^2$ ）→ 以合并样本方差 $s_p^2$ 估计 $\sigma^2$ ，检验统计量服从 $t_{n_1 + n_2 - 2}$ 分布。

实际上，总体方差几乎不可能确切已知。因此两样本Z检验更多作为教学工具——帮助初学者在不受自由度与t分布复杂性干扰的情况下，直观理解"标准化差异"这一检验思想——然后在掌握概念后过渡到更为实用的t检验框架。当两组样本量都很大时（如 $n_1, n_2 > 100$ ），t分布的分位数与标准正态十分接近，Z检验与t检验在数值上几乎等价，但理论上前者仍以方差已知为前提。

比例两样本Z检验

两样本Z检验的另一重要变体是两样本比例Z检验，用于比较两个二项总体的成功概率 $p_1$ 与 $p_2$ 。此时检验统计量为：

Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}

其中 $\hat{p}_1, \hat{p}_2$ 为样本比例， $\hat{p}$ 为在 $H_0: p_1 = p_2$ 下的合并比例估计： $\hat{p} = (x_1 + x_2)/(n_1 + n_2)$ 。这是A/B测试、临床试验和民意调查中比较两组转化率或响应率的标准工具。

小结

两样本Z检验将单样本标准化的逻辑推广到两个总体的比较：用已知的总体方差构建两组均值差异的标准化度量，在标准正态分布下进行推断。虽然其"方差已知"的前提限制了对现实数据的直接适用性，但它在概念上的清晰性——剥离了方差估计和自由度的额外复杂度——使其成为统计推断教学体系中不可或缺的桥梁节点，帮助学习者从单样本扩展到两样本，从Z框架平滑过渡到t框架。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。