ARTICLE

合并样本比例

合并样本比例（pooled sample proportion）是统计学中用于两总体比例比较检验的一个关键概念，符号记为公式或公式。当检验两个独立总体的比例是否相等时，需要在零假设公式成立的前提下，对共同的总体比例进行估计。此时，将两个样本数据合并起来计算得到的比例即为合并样本比例，它是对共同总体比例的最佳估计量。定义与公式合并样本比例的计算

浏览 0 更新 2025-10-26

合并样本比例（pooled sample proportion）是统计学中用于两总体比例比较检验的一个关键概念，符号记为 $\hat{p}$ 或 $\bar{p}$ 。当检验两个独立总体的比例是否相等时，需要在零假设 $H_0: p_1 = p_2$ 成立的前提下，对共同的总体比例进行估计。此时，将两个样本数据合并起来计算得到的比例即为合并样本比例，它是对共同总体比例的最佳估计量。

定义与公式

合并样本比例的计算公式为：

\hat{p} = \frac{x_1 + x_2}{n_1 + n_2}

其中， $x_1$ 和 $x_2$ 分别表示两个样本中具有某特征的单位数（即成功次数）， $n_1$ 和 $n_2$ 分别为两个样本的样本量。从公式结构来看，合并样本比例本质上是两个样本成功次数的加权平均，权重即为各自的样本量。样本量较大的组对合并比例的贡献更大，这与直觉一致——大样本携带更多关于总体参数的信息。

若用样本比例 $\hat{p}_1 = x_1 / n_1$ 和 $\hat{p}_2 = x_2 / n_2$ 来表示，合并公式也可以改写为：

\hat{p} = \frac{n_1\hat{p}_1 + n_2\hat{p}_2}{n_1 + n_2}

这一形式更清楚地展示了加权平均的性质。

统计原理

合并样本比例的合理性建立在零假设成立的假定之上。当 $H_0: p_1 = p_2 = p$ 为真时，两个样本均来自具有相同成功概率 $p$ 的伯努利总体。此时，所有观测值——无论来自哪个组——都是对同一参数 $p$ 的独立同分布观测。将两组数据合并不仅能获得更大的有效样本量，还能使估计量的方差达到最小。

具体地，合并样本比例 $\hat{p}$ 的方差为：

\text{Var}(\hat{p}) = \frac{p(1-p)}{n_1 + n_2}

它小于单独使用任一样本比例时的方差，因为分母更大。这正是合并估计之所以更有效率的原因。在实际的两比例z检验中，这一性质被用来构造标准误更小的检验统计量，从而提高检验的功效（power）。

适用场景

合并样本比例主要用于两比例之差的z检验（two-proportion z-test）。具体而言，当研究者希望检验两个独立群体的比例是否存在显著差异时，需要构造如下检验统计量：

z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}

该统计量在零假设下近似服从标准正态分布。分母中的标准误使用了合并样本比例 $\hat{p}$ 计算，而非各自样本的比例。这样做的好处是在零假设前提下充分利用了全部样本信息，使估计更为精确。常见的应用场景包括：临床试验中治疗组与对照组的有效率比较、市场调研中不同地区用户的购买率差异、社会科学中不同群体对某项政策的支持率对比等。

与不合并标准误的区别

当进行两比例之差的置信区间估计时，通常不使用合并样本比例，而是分别使用各样本比例计算标准误：

SE = \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}

这一区别背后有重要的统计逻辑：假设检验在零假设为真的前提下进行推断，此时两总体比例相等，合并样本能更有效地估计该共同比例；而置信区间则关注两比例之差的真实取值范围，不预设两者相等，因此应保留各自的变异性。这一差异经常被初学者忽略，但理解它对正确应用统计方法至关重要。在统计软件的输出中，p值和置信区间有时看似矛盾，根源之一就在于此。

使用条件

合并样本比例的使用需满足以下条件：

独立性：两个样本相互独立，且各样本内部的观测值也相互独立。
大样本条件：两个样本量均较大，通常要求 $n_1\hat{p} \geq 10$ 、 $n_1(1-\hat{p}) \geq 10$ 、 $n_2\hat{p} \geq 10$ 、 $n_2(1-\hat{p}) \geq 10$ ，以保证正态近似的有效性。
随机抽样：样本来自目标总体的随机抽样，或至少具有代表性以减小选择偏差。

当这些条件不满足时，应考虑使用Fisher精确检验或Bootstrap方法替代。

实际应用示例

假设某药企进行临床试验，治疗组（ $n_1=500$ ）中有320人有效，对照组（ $n_2=400$ ）中有240人有效。欲检验两组有效率是否存在显著差异。首先计算两个样本比例：

\hat{p}_1 = \frac{320}{500} = 0.64, \quad \hat{p}_2 = \frac{240}{400} = 0.60

合并样本比例为：

\hat{p} = \frac{320 + 240}{500 + 400} = \frac{560}{900} \approx 0.6222

检验统计量为：

z = \frac{0.64 - 0.60}{\sqrt{0.6222 \times 0.3778 \times \left(\frac{1}{500} + \frac{1}{400}\right)}} \approx \frac{0.04}{0.0325} \approx 1.23

若显著性水平取0.05，临界值为±1.96。因 $|1.23| < 1.96$ ，故不拒绝零假设，即无充分证据认为两组有效率存在统计学上的显著差异。

注意事项

合并样本比例仅适用于两比例相等的零假设检验，不可将其混淆于一般性的比例估计或置信区间构造。此外，小样本情况下应使用Fisher精确检验替代z检验，因为此时正态近似的精度不足。在实际数据分析中，许多统计软件（如R语言的prop.test、SPSS的交叉表分析、Python statsmodels库的proportions\_ztest）在进行两比例z检验时默认使用合并样本比例计算标准误，理解这一底层逻辑对正确解读输出结果至关重要。

与其他检验方法的关系

合并样本比例对应的两比例z检验与卡方检验有着内在联系。对于 $2 \times 2$ 列联表，两比例z检验的z统计量的平方恰好等于Pearson卡方统计量，即 $z^2 = \chi^2$ 。因此，在相同的显著性水平下，两种检验方法会得出完全一致的结论。这一等价性使得合并样本比例的概念不仅出现在z检验中，也隐含在列联表的独立性检验里。

此外，当比较的比例超过两个时（如多组间的比例比较），需要使用卡方检验或对数线性模型，此时合并样本比例的思想不再直接适用，但其加权平均的理念在更复杂的分析中仍有体现。

常见误区

在实践中，围绕合并样本比例存在几个常见误区。第一，有些使用者错误地将合并样本比例用于置信区间构造，导致区间过窄、覆盖概率低于名义水平。第二，有人在计算检验统计量时混淆了合并比例与不合并比例的选用，导致p值计算错误。第三，大样本条件的判断需要使用合并样本比例而非各样本比例来验证，这一点也常被忽略。正确理解合并样本比例的适用边界和统计逻辑，是避免这些错误的关键。

参考文献

Agresti, A. (2018). Statistical Methods for the Social Sciences (5th ed.). Pearson.
Moore, D. S., McCabe, G. P., \& Craig, B. A. (2021). Introduction to the Practice of Statistics (10th ed.). W.H. Freeman.
Rosner, B. (2015). Fundamentals of Biostatistics (8th ed.). Cengage Learning.

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。