ARTICLE

概率抽样

概率抽样概率抽样（Probability Sampling）是一种基于随机化原则的抽样方法，要求总体中每个单元被选入样本的概率已知且非零。与非概率抽样（如便利抽样、配额抽样）不同，概率抽样为统计推断提供了严格的概率论基础，使研究者能够从样本特征出发对总体参数进行无偏估计，并量化估计的不确定性。概率抽样是推断统计学的基石，广泛用于普查、市场研究、计量经济学和

浏览 6 更新 2025-10-29

概率抽样

概率抽样（Probability Sampling）是一种基于随机化原则的抽样方法，要求总体中每个单元被选入样本的概率已知且非零。与非概率抽样（如便利抽样、配额抽样）不同，概率抽样为统计推断提供了严格的概率论基础，使研究者能够从样本特征出发对总体参数进行无偏估计，并量化估计的不确定性。概率抽样是推断统计学的基石，广泛用于普查、市场研究、计量经济学和A/B测试等领域。

概率抽样的核心原则

概率抽样的有效性建立在大数定律与中心极限定理之上。其核心原则包括：

随机性：每个抽样单元被选中的概率由随机机制确定，而非主观判断，从而避免选择性偏差。
已知概率：每个单元的入样概率可精确计算，这是构造估计量和计算标准误的前提。
可重复性：原则上，在相同抽样框架下可重复抽取等概率样本，使抽样误差的量化成为可能。

这些原则确保样本统计量（如样本均值）是总体参数（如总体均值）的无偏估计量，且估计量的方差可表示为抽样设计的函数——这一思想集中体现在Horvitz-Thompson估计量中。

主要概率抽样方法

简单随机抽样

简单随机抽样（Simple Random Sampling, SRS）是最基础的概率抽样形式。从包含 $N$ 个单元的总体中无放回地等概率抽取 $n$ 个单元，每个 $\binom{N}{n}$ 种可能样本被选中的概率相等。样本均值 $\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i$ 是总体均值 $\mu$ 的无偏估计，其方差为 $\operatorname{Var}(\bar{y}) = \frac{S^2}{n}(1 - \frac{n}{N})$ ，其中 $S^2$ 为总体方差， $(1 - n/N)$ 为有限总体校正因子。SRS 操作简便，但效率较低，尤其当总体存在明显异质性时。

分层抽样

分层抽样（Stratified Sampling）先将总体划分为若干个互不重叠的层（Strata），再从每层独立地进行简单随机抽样。分层抽样的核心动机是减少方差：若层内单元高度同质而层间差异较大，分层后的估计量方差将显著小于同等样本量下的 SRS。分层抽样的总体均值估计量为 $\bar{y}_{\text{st}} = \sum_{h=1}^{H} W_h \bar{y}_h$ ，其中 $W_h = N_h / N$ 为层权， $\bar{y}_h$ 为第 $h$ 层的样本均值。其方差取决于层内方差而非层间方差，因此当层内同质性高时效率最优。最优分配（Neyman Allocation）进一步依据层内标准差与层规模分配样本量，使估计精度最大化。

整群抽样

整群抽样（Cluster Sampling）将总体划分为若干个群（Cluster），随机抽取部分群后，对入选群内的全部单元进行调查。与分层抽样相反，整群抽样适用于群内异质、群间同质的情形，典型案例如以学校为群的教育测量中以班级为抽样单元。整群抽样的效率通常低于 SRS，因为同一群内单元往往具有正相关性——这种相关性由组内相关系数（Intraclass Correlation Coefficient, ICC）度量，设计效应（Design Effect）近似为 $1 + (m-1)\rho$ ，其中 $m$ 为平均群规模， $\rho$ 为 ICC。整群抽样的优势在于实施成本低：当抽样框架难以全面构建、或访问分散的个体成本过高时，整群抽样在预算约束下往往优于 SRS。

系统抽样

系统抽样（Systematic Sampling）按固定间隔 $k = N/n$ 从排序后的总体列表中抽取单元。当列表的排序方式与目标变量存在周期性或趋势性关联时，系统抽样可能比 SRS 更高效（如按地理顺序排序的土地调查），也可能产生严重偏差（如按周为周期的经济时间序列中每隔 7 天抽样）。系统抽样可以视为一种隐式分层，其方差估计通常需要借助连续差法或重叠子样本法。

多阶段抽样

多阶段抽样（Multistage Sampling）是整群抽样的推广，在大型全国性调查（如中国家庭追踪调查 CFPS、美国当前人口调查 CPS）中广泛应用。第一阶段随机抽取初级抽样单元（PSU，如县/区），第二阶段在入选 PSU 内抽取次级单元（SSU，如街道/居委会），依此类推，直至最终抽样单元（住户或个人）。多阶段抽样通过逐级抽样集中样本分布，降低实地调查的交通与管理成本，但每个阶段的聚类效应会累积放大设计效应，需要在估计中采用Taylor级数线性化或自助法（Bootstrap）计算稳健标准误。

概率抽样在经济学中的应用

在计量经济学与实证经济学中，概率抽样构成了参数估计与假设检验的底层前提。随机对照试验（RCT）是概率抽样思想的直接延伸——通过随机分配处理组与控制组，确保可忽略性（Ignorability）假设成立，从而识别因果效应。调查数据（如中国健康与营养调查 CHNS、劳动力调查）的推断质量高度依赖抽样设计的科学性；不恰当的抽样框架或过高的无应答率将导致样本选择偏差，使估计丧失一致性。

在金融经济学中，概率抽样还体现在资产定价的实证检验中：事件研究中样本窗口的选取、因子模型的估计中投资组合的分组构建，均涉及抽样逻辑。蒙特卡洛模拟虽非严格意义上的概率抽样，但其核心机制——从已知分布中随机抽取大量样本以逼近解析解——与概率抽样的统计理念一脉相承。

挑战与前沿方法

概率抽样在实践中的主要挑战包括：无应答偏差（Nonresponse Bias）破坏随机性，需要借助逆概率加权（Inverse Probability Weighting）或多重插补（Multiple Imputation）加以修正；抽样框覆盖不足导致部分总体单元被排除在入选可能性之外（如仅以固定电话用户为框的电话调查遗漏了仅使用手机的人群）；复杂抽样设计使标准统计软件中的简单公式失效，需采用调查权重与稳健方差估计（如刀切法 Jackknife 或平衡重复复制 Balanced Repeated Replication）。

近年来，非概率样本与概率样本的混合方法成为前沿方向：利用倾向得分加权（Propensity Score Weighting）矫正非概率样本的选择偏差，或采用贝叶斯分层模型融合多源数据。大数据的兴起虽提供了海量非概率样本（如社交媒体数据），但概率抽样在推断有效性上的理论优势依然不可替代，二者互补是数据科学时代抽样方法发展的重要趋势。

知识延伸

概率抽样与以下概念构成紧密的知识网络：抽样分布描述了统计量在所有可能样本下的概率分布；抽样误差界定估计量与真实参数之间的随机偏差；置信区间与假设检验提供了基于样本推断总体的操作框架；设计效应衡量不同抽样设计相对于 SRS 的效率损失或增益；非抽样误差涵盖测量误差、无应答误差等非随机偏差来源；Rao-Blackwell定理与Lehmann-Scheffé定理则从理论上刻画了基于概率样本的最优估计量的构造路径。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。