ARTICLE

两总体比例的_z_检验

两总体比例的\_z\_检验 (z-Test for Two Population Proportions) 两总体比例的 z 检验 (z-test for two population proportions) 是一种在推论统计学 (inferential statistics) 中广泛应用的假设检验方法。它的核心目的是比较来自两个不同且独立的总体 (pop

浏览 32 更新 2025-10-23

两总体比例的\_z\_检验 (z-Test for Two Population Proportions)

两总体比例的 z 检验 (z-test for two population proportions) 是一种在推论统计学 (inferential statistics) 中广泛应用的假设检验方法。它的核心目的是比较来自两个不同且独立的总体 (population) 中,具有某一特定属性的单位所占的比例 (proportion) 是否存在统计显著差异。

这一检验在现代数据分析中极为常见,典型应用场景包括:

  • 两种不同疫苗的有效率是否相同?
  • 男性和女性选民对某一政策的支持率是否存在差异?
  • A/B 测试中,两种网页设计的点击率是否有显著不同?
  • 新药组与安慰剂对照组的不良反应发生率比较。

该检验通过分析从两个总体中随机抽取的样本 (sample) 数据,来判断观察到的样本比例之差,究竟是由于真实的总体差异所致,还是仅仅由抽样的随机波动所造成。其本质是将差异的大小与抽样变异性的预期幅度进行比较。

检验的逻辑与基本假设

该检验的核心是比较两个未知的总体比例,分别记为 p1p_1p2p_2。由于无法直接观测总体,我们从两个总体中各自抽取独立样本——容量分别为 n1n_1n2n_2——并计算样本比例 p^1=x1/n1\hat{p}_1 = x_1 / n_1p^2=x2/n2\hat{p}_2 = x_2 / n_2 作为点估计值。

检验的第一步是建立一对互斥且穷尽的统计假设:

  • 零假设 (H0)(H_0):两个总体比例相等,即不存在差异。 \[ H_0: p_1 = p_2 \quad \text{或等价地} \quad H_0: p_1 - p_2 = 0 \] 这是假设检验的默认立场,在获得充分证据前不予拒绝。
  • 备择假设 (Ha)(H_a):两个总体比例不相等。根据研究问题的方向性,有三种设定形式: \begin{enumerate}
  • 双尾检验 (Two-tailed test):仅关心是否存在差异,不预设方向。 \[ H_a: p_1 \neq p_2 \]
  • 左尾检验 (Left-tailed test):检验 p1p_1 是否小于 p2p_2。 \[ H_a: p_1 < p_2 \]
  • 右尾检验 (Right-tailed test):检验 p1p_1 是否大于 p2p_2。 \[ H_a: p_1 > p_2 \] \end{enumerate}

检验的理论基础源于"差值的抽样分布"。根据中心极限定理 (Central Limit Theorem),当样本量足够大时,两个独立样本比例之差 (p^1p^2)(\hat{p}_1 - \hat{p}_2) 的抽样分布近似服从正态分布。该分布的期望为 E(p^1p^2)=p1p2E(\hat{p}_1 - \hat{p}_2) = p_1 - p_2,在零假设成立时即为 0;方差为:

Var(p^1p^2)=p1(1p1)n1+p2(1p2)n2Var(\hat{p}_1 - \hat{p}_2) = \frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}

检验统计量的构建

检验统计量的一般构造思路为:

检验统计量=样本估计值零假设下的参数值标准误\text{检验统计量} = \frac{\text{样本估计值} - \text{零假设下的参数值}}{\text{标准误}}

此处,样本估计值为 p^1p^2\hat{p}_1 - \hat{p}_2,零假设下的参数值为 0。关键步骤在于合理估计标准误 (standard error)。

在零假设 p1=p2=pp_1 = p_2 = p 的前提下,两个总体的"成功"概率相同,因此可以将两个样本的数据合并,获得共同比例 pp 的最佳估计——混合样本比例 (pooled sample proportion)

p^p=x1+x2n1+n2\hat{p}_p = \frac{x_1 + x_2}{n_1 + n_2}

其中 x1=n1p^1x_1 = n_1\hat{p}_1x2=n2p^2x_2 = n_2\hat{p}_2 分别为两个样本中的"成功"次数。

p^p\hat{p}_p 替代未知的 pp,得到零假设下的标准误:

SEp=p^p(1p^p)(1n1+1n2)SE_p = \sqrt{\hat{p}_p(1-\hat{p}_p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}

最终,z 检验统计量为:

z=(p^1p^2)0SEp=p^1p^2p^p(1p^p)(1n1+1n2)z = \frac{(\hat{p}_1 - \hat{p}_2) - 0}{SE_p} = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}_p(1-\hat{p}_p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}

这个 zz 值度量了观察差异相对于混合标准误的倍数。绝对值越大,意味着观察到的差异在零假设下越不可能随机出现,支持拒绝 H0H_0 的证据越强。

使用条件

为使检验结论可靠,须满足以下条件:

  1. 独立性 (Independence):两个样本必须相互独立——一个样本中的观测不得影响另一个样本。单一样本内部也需满足独立性,通常以随机抽样保证。若为不放回抽样,每个样本量 nn 不得超过对应总体规模 NN 的 10\%(即 n0.10Nn \leq 0.10N),此即"10\% 条件"。
  2. 正态性 / 样本量条件 (Normality):样本量须足够大,以确保 p^1p^2\hat{p}_1 - \hat{p}_2 的抽样分布近似正态。这通过"成功-失败条件"检验——以混合比例 p^p\hat{p}_p 为基准,每个样本的预期成功与失败次数均须不小于 10: \[ n_1\hat{p}_p \ge 10,\quad n_1(1-\hat{p}_p) \ge 10,\quad n_2\hat{p}_p \ge 10,\quad n_2(1-\hat{p}_p) \ge 10 \] 当不满足上述条件时,应考虑使用Fisher 精确检验或其他适用于小样本的方法。

检验的标准步骤

一个完整的两总体比例 z 检验通常按以下六步执行:

  1. 陈述假设:明确定义参数 p1p_1p2p_2,写出 H0H_0HaH_a,并设定显著性水平 α\alpha(惯例取 0.05、0.01 或 0.10)。
  2. 核查条件:逐一确认独立性与正态性条件是否成立。若条件不满足,应更换检验方法并在报告中说明。
  3. 计算统计量:由样本数据计算 p^1\hat{p}_1p^2\hat{p}_2p^p\hat{p}_p,进而求得 zz 统计量。
  4. 确定 P 值:根据备择假设的方向,计算P 值——零假设为真时出现当前结果或更极端结果的概率。 \begin{itemize}
  5. 双尾 Ha:p1p2H_a: p_1 \neq p_2P=2×P(Zz)P = 2 \times P(Z \ge |z|)
  6. 右尾 Ha:p1>p2H_a: p_1 > p_2P=P(Zz)P = P(Z \ge z)
  7. 左尾 Ha:p1<p2H_a: p_1 < p_2P=P(Zz)P = P(Z \le z) \end{itemize}
  8. 做出决策:比较 P 值与 α\alpha。 \begin{itemize}
  9. PαP \le \alpha,拒绝 H0H_0——数据提供了支持 HaH_a 的充分证据。
  10. P>αP > \alpha,未能拒绝 H0H_0——证据不足以推翻零假设。 \end{itemize} 需注意,"未能拒绝 H0H_0"不等于"证明 H0H_0 为真"。
  11. 得出结论:以问题的实际语境清晰阐释统计决策的含义,避免仅罗列数字。

置信区间:差异幅度的补充刻画

假设检验回答"是否存在差异",但无法揭示差异的大小。两总体比例之差的置信区间填补了这一信息空缺,为真实差异 p1p2p_1 - p_2 提供一个合理的估计范围。

置信区间的计算公式为:

(p^1p^2)±zp^1(1p^1)n1+p^2(1p^2)n2(\hat{p}_1 - \hat{p}_2) \pm z^* \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}

其中 zz^* 是与置信水平对应的临界值(如 95\% 置信水平下 z1.96z^* \approx 1.96)。关键注意:此处的标准误不使用混合比例 p^p\hat{p}_p,而是以各自样本比例 p^1\hat{p}_1p^2\hat{p}_2 分别估计标准误的分子。这是因为构建置信区间时不再假设 p1=p2p_1 = p_2,而是让两个比例各自拥有独立的方差估计,从而使区间反映真实的抽样变异性,而不受零假设约束。

置信区间的解释:在重复抽样的框架下,有约 95\%(以 95\% 置信水平为例)的此类区间会覆盖真实的 p1p2p_1 - p_2。若区间包含 0,则意味着"无差异"是一个合理的可能值,与在相应显著性水平上未能拒绝 H0:p1=p2H_0: p_1 = p_2 的结论一致;若区间完全位于 0 的一侧(全正或全负),则与存在显著差异的结论相互印证。

与其他方法的关联

两总体比例 z 检验与卡方检验中的独立性检验有着紧密联系:对于 2×22 \times 2 列联表,比较两个比例的双尾 z 检验在数学上等价于 Pearson 卡方独立性检验——z2=χ2z^2 = \chi^2,且两者产生相同的 P 值。z 检验的优势在于可直接计算置信区间和进行单侧检验,而卡方检验更自然地推广到多行多列的列联表分析。选择何种方法,通常取决于分析的目的、习惯和是否需要置信区间。

此外,当样本量较小或预期频数过低时,z 近似不再可靠,此时应转而使用 Fisher 精确检验(针对 2×22 \times 2 表),其基于超几何分布计算精确概率,不受大样本近似的限制。