ARTICLE

两总体比例的_z_检验

两总体比例的\_z\_检验 (z-Test for Two Population Proportions) 两总体比例的 z 检验 (z-test for two population proportions) 是一种在推论统计学 (inferential statistics) 中广泛应用的假设检验方法。它的核心目的是比较来自两个不同且独立的总体 (pop

浏览 32 更新 2025-10-23

两总体比例的\_z\_检验 (z-Test for Two Population Proportions)

两总体比例的 z 检验 (z-test for two population proportions) 是一种在推论统计学 (inferential statistics) 中广泛应用的假设检验方法。它的核心目的是比较来自两个不同且独立的总体 (population) 中，具有某一特定属性的单位所占的比例 (proportion) 是否存在统计显著差异。

这一检验在现代数据分析中极为常见，典型应用场景包括：

两种不同疫苗的有效率是否相同？
男性和女性选民对某一政策的支持率是否存在差异？
A/B 测试中，两种网页设计的点击率是否有显著不同？
新药组与安慰剂对照组的不良反应发生率比较。

该检验通过分析从两个总体中随机抽取的样本 (sample) 数据，来判断观察到的样本比例之差，究竟是由于真实的总体差异所致，还是仅仅由抽样的随机波动所造成。其本质是将差异的大小与抽样变异性的预期幅度进行比较。

检验的逻辑与基本假设

该检验的核心是比较两个未知的总体比例，分别记为 $p_1$ 和 $p_2$ 。由于无法直接观测总体，我们从两个总体中各自抽取独立样本——容量分别为 $n_1$ 和 $n_2$ ——并计算样本比例 $\hat{p}_1 = x_1 / n_1$ 和 $\hat{p}_2 = x_2 / n_2$ 作为点估计值。

检验的第一步是建立一对互斥且穷尽的统计假设：

零假设 $(H_0)$ ：两个总体比例相等，即不存在差异。 \[ H_0: p_1 = p_2 \quad \text{或等价地} \quad H_0: p_1 - p_2 = 0 \] 这是假设检验的默认立场，在获得充分证据前不予拒绝。
备择假设 $(H_a)$ ：两个总体比例不相等。根据研究问题的方向性，有三种设定形式： \begin{enumerate}
双尾检验 (Two-tailed test)：仅关心是否存在差异，不预设方向。 \[ H_a: p_1 \neq p_2 \]
左尾检验 (Left-tailed test)：检验 $p_1$ 是否小于 $p_2$ 。 \[ H_a: p_1 < p_2 \]
右尾检验 (Right-tailed test)：检验 $p_1$ 是否大于 $p_2$ 。 \[ H_a: p_1 > p_2 \] \end{enumerate}

检验的理论基础源于"差值的抽样分布"。根据中心极限定理 (Central Limit Theorem)，当样本量足够大时，两个独立样本比例之差 $(\hat{p}_1 - \hat{p}_2)$ 的抽样分布近似服从正态分布。该分布的期望为 $E(\hat{p}_1 - \hat{p}_2) = p_1 - p_2$ ，在零假设成立时即为 0；方差为：

Var(\hat{p}_1 - \hat{p}_2) = \frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}

检验统计量的构建

检验统计量的一般构造思路为：

\text{检验统计量} = \frac{\text{样本估计值} - \text{零假设下的参数值}}{\text{标准误}}

此处，样本估计值为 $\hat{p}_1 - \hat{p}_2$ ，零假设下的参数值为 0。关键步骤在于合理估计标准误 (standard error)。

在零假设 $p_1 = p_2 = p$ 的前提下，两个总体的"成功"概率相同，因此可以将两个样本的数据合并，获得共同比例 $p$ 的最佳估计——混合样本比例 (pooled sample proportion)：

\hat{p}_p = \frac{x_1 + x_2}{n_1 + n_2}

其中 $x_1 = n_1\hat{p}_1$ 、 $x_2 = n_2\hat{p}_2$ 分别为两个样本中的"成功"次数。

以 $\hat{p}_p$ 替代未知的 $p$ ，得到零假设下的标准误：

SE_p = \sqrt{\hat{p}_p(1-\hat{p}_p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}

最终，z 检验统计量为：

z = \frac{(\hat{p}_1 - \hat{p}_2) - 0}{SE_p} = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}_p(1-\hat{p}_p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}

这个 $z$ 值度量了观察差异相对于混合标准误的倍数。绝对值越大，意味着观察到的差异在零假设下越不可能随机出现，支持拒绝 $H_0$ 的证据越强。

使用条件

为使检验结论可靠，须满足以下条件：

独立性 (Independence)：两个样本必须相互独立——一个样本中的观测不得影响另一个样本。单一样本内部也需满足独立性，通常以随机抽样保证。若为不放回抽样，每个样本量 $n$ 不得超过对应总体规模 $N$ 的 10\%（即 $n \leq 0.10N$ ），此即"10\% 条件"。
正态性 / 样本量条件 (Normality)：样本量须足够大，以确保 $\hat{p}_1 - \hat{p}_2$ 的抽样分布近似正态。这通过"成功-失败条件"检验——以混合比例 $\hat{p}_p$ 为基准，每个样本的预期成功与失败次数均须不小于 10： \[ n_1\hat{p}_p \ge 10,\quad n_1(1-\hat{p}_p) \ge 10,\quad n_2\hat{p}_p \ge 10,\quad n_2(1-\hat{p}_p) \ge 10 \] 当不满足上述条件时，应考虑使用Fisher 精确检验或其他适用于小样本的方法。

检验的标准步骤

一个完整的两总体比例 z 检验通常按以下六步执行：

陈述假设：明确定义参数 $p_1$ 与 $p_2$ ，写出 $H_0$ 与 $H_a$ ，并设定显著性水平 $\alpha$ （惯例取 0.05、0.01 或 0.10）。
核查条件：逐一确认独立性与正态性条件是否成立。若条件不满足，应更换检验方法并在报告中说明。
计算统计量：由样本数据计算 $\hat{p}_1$ 、 $\hat{p}_2$ 、 $\hat{p}_p$ ，进而求得 $z$ 统计量。
确定 P 值：根据备择假设的方向，计算P 值——零假设为真时出现当前结果或更极端结果的概率。 \begin{itemize}
双尾 $H_a: p_1 \neq p_2$ ： $P = 2 \times P(Z \ge |z|)$
右尾 $H_a: p_1 > p_2$ ： $P = P(Z \ge z)$
左尾 $H_a: p_1 < p_2$ ： $P = P(Z \le z)$ \end{itemize}
做出决策：比较 P 值与 $\alpha$ 。 \begin{itemize}
若 $P \le \alpha$ ，拒绝 $H_0$ ——数据提供了支持 $H_a$ 的充分证据。
若 $P > \alpha$ ，未能拒绝 $H_0$ ——证据不足以推翻零假设。 \end{itemize} 需注意，"未能拒绝 $H_0$ "不等于"证明 $H_0$ 为真"。
得出结论：以问题的实际语境清晰阐释统计决策的含义，避免仅罗列数字。

置信区间：差异幅度的补充刻画

假设检验回答"是否存在差异"，但无法揭示差异的大小。两总体比例之差的置信区间填补了这一信息空缺，为真实差异 $p_1 - p_2$ 提供一个合理的估计范围。

置信区间的计算公式为：

(\hat{p}_1 - \hat{p}_2) \pm z^* \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}

其中 $z^*$ 是与置信水平对应的临界值（如 95\% 置信水平下 $z^* \approx 1.96$ ）。关键注意：此处的标准误不使用混合比例 $\hat{p}_p$ ，而是以各自样本比例 $\hat{p}_1$ 、 $\hat{p}_2$ 分别估计标准误的分子。这是因为构建置信区间时不再假设 $p_1 = p_2$ ，而是让两个比例各自拥有独立的方差估计，从而使区间反映真实的抽样变异性，而不受零假设约束。

置信区间的解释：在重复抽样的框架下，有约 95\%（以 95\% 置信水平为例）的此类区间会覆盖真实的 $p_1 - p_2$ 。若区间包含 0，则意味着"无差异"是一个合理的可能值，与在相应显著性水平上未能拒绝 $H_0: p_1 = p_2$ 的结论一致；若区间完全位于 0 的一侧（全正或全负），则与存在显著差异的结论相互印证。

与其他方法的关联

两总体比例 z 检验与卡方检验中的独立性检验有着紧密联系：对于 $2 \times 2$ 列联表，比较两个比例的双尾 z 检验在数学上等价于 Pearson 卡方独立性检验—— $z^2 = \chi^2$ ，且两者产生相同的 P 值。z 检验的优势在于可直接计算置信区间和进行单侧检验，而卡方检验更自然地推广到多行多列的列联表分析。选择何种方法，通常取决于分析的目的、习惯和是否需要置信区间。

此外，当样本量较小或预期频数过低时，z 近似不再可靠，此时应转而使用 Fisher 精确检验（针对 $2 \times 2$ 表），其基于超几何分布计算精确概率，不受大样本近似的限制。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。