ARTICLE

抽样设计

抽样设计 (Sampling Design) 抽样设计 (Sampling Design) 是统计学与调查研究方法论中的核心环节,指从目标总体中按照既定规则选取样本单元的完整方案与策略。其目标是以最小的成本获取对总体参数最具代表性的推断。抽样设计的优劣直接决定统计推断的有效性——一个糟糕的抽样设计即使配合最精密的统计模型,也无法产生可靠的结论。现代抽样理论的

浏览 0 更新 2025-11-08

抽样设计 (Sampling Design)

抽样设计 (Sampling Design) 是统计学与调查研究方法论中的核心环节,指从目标总体中按照既定规则选取样本单元的完整方案与策略。其目标是以最小的成本获取对总体参数最具代表性的推断。抽样设计的优劣直接决定统计推断的有效性——一个糟糕的抽样设计即使配合最精密的统计模型,也无法产生可靠的结论。现代抽样理论的数学基础由 Neyman 于 1934 年在其经典论文中奠定,他严格证明了分层抽样中按层内标准差进行比例分配的最优性,并区分了概率抽样与目的性抽样的本质差异。此后, CochranKishHansen 等学者系统发展了抽样理论,使其成为 20 世纪统计学最具应用影响力的分支之一。

抽样设计的基本要素

一个完整的抽样设计需明确以下四个核心要素:

  • 目标总体 (Target Population):研究所欲推断的全部单元集合。界定目标总体需明确其时间、空间与属性边界,模糊的总体界定将导致推断结论无法解释。
  • 抽样框 (Sampling Frame):可实际接触并从中抽样的名单或地理单元。抽样框与目标总体之间的差异构成覆盖误差 (Coverage Error),是抽样设计中须审慎评估的系统性风险来源。
  • 抽样方法 (Sampling Method):从抽样框中选取样本的具体规则,分为概率抽样与非概率抽样两大类,其选择取决于研究目标、资源约束与总体特征。
  • 样本量 (Sample Size):需综合考虑估计精度要求、总体变异程度、经费约束与预期无回答率等因素,通过统计公式或成本函数优化确定。

概率抽样的主要方法

概率抽样确保总体中每个单元具有已知的非零入样概率,是大样本统计推断的理论基础。

简单随机抽样 (Simple Random Sampling, SRS) 是最基本的概率抽样方式:从大小为 NN 的总体中等概率无放回地抽取 nn 个单元,每个可能样本的出现概率均为 1/(Nn)1 / \binom{N}{n}。在此设计下,样本均值 yˉ\bar{y} 是总体均值 μ\mu 的无偏估计量,其方差为:

Var(yˉ)=S2n(1nN)\operatorname{Var}(\bar{y}) = \frac{S^2}{n} \left(1 - \frac{n}{N}\right)

其中 S2S^2 为总体方差,(1n/N)(1 - n/N)有限总体校正因子 (Finite Population Correction)。当抽样比 n/Nn/N 较小时,该因子趋近于 1,可忽略不计。

分层抽样 (Stratified Sampling) 将总体按某辅助变量(如年龄、地区、收入等级)划分为互不重叠的若干层,然后在每层内独立进行简单随机抽样。设总体分为 HH 层,第 hh 层有 NhN_h 个单元,从中抽取 nhn_h 个,总体均值 μ\mu 的分层估计量为:

yˉst=h=1HWhyˉh,Wh=NhN\bar{y}_{\text{st}} = \sum_{h=1}^{H} W_h \bar{y}_h, \quad W_h = \frac{N_h}{N}

其方差为 Var(yˉst)=h=1HWh2Sh2nh(1nhNh)\operatorname{Var}(\bar{y}_{\text{st}}) = \sum_{h=1}^{H} W_h^2 \frac{S_h^2}{n_h} (1 - \frac{n_h}{N_h})。当层内同质性强而层间差异大时,分层抽样可显著降低估计方差。Neyman分配进一步将总样本量在各层间按 nhNhShn_h \propto N_h S_h 分配,以最小化给定总样本量下的方差,是成本约束下最优分配的标准方法。

整群抽样 (Cluster Sampling) 将总体划分为群(如学校、村庄、街区),随机抽取若干群后对群内全部单元进行调查。当群内差异大而群间差异小时效率较高,且可大幅降低调查实施成本。其代价是群内单元的相似性通常导致设计效应 (Design Effect) 大于 1,即同等样本量下精度劣于 SRS。

系统抽样 (Systematic Sampling) 按固定间隔 k=N/nk = N/n 从有序抽样框中等距选取单元。实施简便,但需警惕抽样框中隐藏的周期性模式——若排序变量与目标变量存在周期性关联,可能导致系统性偏差。

多阶段抽样 (Multi-stage Sampling) 将上述方法嵌套使用,例如第一阶段抽取县区(整群),第二阶段在抽取的县区内抽取村庄,第三阶段在村庄中抽取住户。每一阶段均可灵活选择不同的抽样方法,是大型社会调查(如中国家庭追踪调查)的标准设计框架,在降低实地调查成本的同时保持了统计推断的严谨性。

不等概率抽样 (Probability Proportional to Size, PPS) 是另一类重要的概率抽样方法,尤其适用于单元规模差异悬殊的场景。当总体单元具有已知的规模度量 MiM_i(如企业雇员数、城市人口数),令入样概率与 MiM_i 成比例,可显著降低估计量的方差。HansenHurwitz 于 1943 年提出的 PPS 有放回抽样方案及其对应的 Hansen-Hurwitz估计量,至今仍是企业调查和农业统计中的标准工具。

非概率抽样及其局限

便利抽样 (Convenience Sampling)、配额抽样 (Quota Sampling)、滚雪球抽样 (Snowball Sampling) 等非概率方法不以随机化为基础,无法保证样本的代表性,在理论上无法建立经典统计推断的误差边界。然而在探索性研究、难以构建抽样框的隐匿人群(如罕见病患者、非法移民)调查中,非概率抽样仍有不可替代的实用价值。近年来,基于倾向得分匹配和校准加权的非概率样本推断方法是抽样理论中活跃的研究前沿。其核心思路是利用概率参考样本(如普查数据或高质量概率调查)中的辅助信息,对非概率样本施加校准约束,使其在关键协变量上的加权分布与参考总体一致,从而减小选择偏差。然而,该方法依赖于"可忽略性"假设——即给定校准变量后样本选择与目标变量条件独立——这一假设在实践中难以验证,构成非概率推断的根本局限。

设计效应与样本量确定

设计效应 (Design Effect, deff) 由统计学家 Kish 于 1965 年系统阐述,定义为在相同样本量下,给定抽样设计的估计量方差与简单随机抽样估计量方差之比:

deff=Vardesign(θ^)VarSRS(θ^)\operatorname{deff} = \frac{\operatorname{Var}_{\text{design}}(\hat{\theta})}{\operatorname{Var}_{\text{SRS}}(\hat{\theta})}

设计效应量化了复杂抽样相对 SRS 的效率损失——其值大于 1 表示需要更大样本才能获得与 SRS 同等的精度。样本量确定公式在此基础上调整为:

n=zα/22S2d2×deffn = \frac{z_{\alpha/2}^2 S^2}{d^2} \times \operatorname{deff}

其中 dd 为可容忍误差边际,zα/2z_{\alpha/2} 为置信水平对应的正态分位数。在实际操作中,还需考虑预计无回答率 rr 对有效样本的稀释,将最终样本量放大为 n/(1r)n / (1 - r)

经济学与社会科学中的应用

抽样设计是官方统计体系的基石。GDP核算所依赖的住户收支调查、企业生产经营调查和居民消费价格采集均建立在多阶段分层抽样设计之上。劳动力调查采用轮换面板抽样设计,在截面估计精度与纵向变化的追踪之间取得平衡。在发展经济学中,随机对照试验 (RCT) 的样本量计算、随机化方案与分层区组设计本质上是抽样设计在实验框架下的系统延伸。市场研究中的消费者行为调查、交通规划中的居民出行调查、公共卫生中的疾病流行率调查同样依赖严格的抽样设计以确保推断的科学性。

抽样设计的效率比较:不同抽样方法的相对效率取决于总体结构特征。分层抽样在层内相关系数高时远优于 SRS,其相对效率约为 1/(1ρintra)1 / (1 - \rho_{\text{intra}});整群抽样则在群内相关系数低时接近 SRS,群内同质性越高效率损失越严重。实践中,大型调查往往采用多阶段分层不等概率混合设计,在估计精度、实施成本和操作可行性之间寻求最优折中。

主要挑战包括:抽样框覆盖不足导致的选择偏差 (Selection Bias)、无回答率持续上升对样本代表性的侵蚀、以及大数据时代海量非概率样本的统计推断难题。经典抽样理论高度依赖概率抽样产生的随机化分布来建立推断,而互联网时代涌现的大规模观测数据(如社交媒体、电商平台记录)本质上是自我选择样本。如何将抽样设计的严谨性与大数据的规模优势相结合,是当代官方统计与数据科学交叉领域最紧迫的议题。