ARTICLE

抽取

抽取 (Sampling) 抽取,亦称抽样,是统计学中将研究对象的全体(总体,Population)中按一定规则选取部分个体(样本,Sample)的过程。抽取的核心目标是以样本的统计特征推断总体的未知参数,在不可能或成本过高而无法进行全面调查时,抽取是获取统计推断基础的唯一可行途径。 抽取的基本原理 设总体包含 N 个个体,从中抽取容量为 n 的样本。抽取的

浏览 0 更新 2025-11-09

抽取 (Sampling)

抽取,亦称抽样,是统计学中将研究对象的全体(总体,Population)中按一定规则选取部分个体(样本,Sample)的过程。抽取的核心目标是以样本的统计特征推断总体的未知参数,在不可能或成本过高而无法进行全面调查时,抽取是获取统计推断基础的唯一可行途径。

抽取的基本原理

设总体包含 NN 个个体,从中抽取容量为 nn 的样本。抽取的统计有效性建立在两个基石之上:

  • 随机性:每个个体被抽中的概率已知且非零。这是大数定律和中心极限定理得以适用的前提条件,也是统计推断中标准误可计算的根本保障。
  • 代表性:样本的结构应与总体结构一致或偏差可控。代表性不足导致选择偏误(Selection Bias),使样本推断产生系统性偏离,典型的失败案例包括 1936 年《文学文摘》的总统选举预测失误——其电话簿抽样遗漏了经济大萧条中无力安装电话的低收入选民。

主要抽取方法

简单随机抽样 (Simple Random Sampling)

从总体中随机抽取 nn 个个体,每个容量为 nn 的子集被抽中的概率相等。简单随机抽样是理论分析的基准,其样本均值 Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i 的方差为:

Var(Xˉ)=σ2n(1nN)\mathrm{Var}(\bar{X}) = \frac{\sigma^2}{n} \cdot \left(1 - \frac{n}{N}\right)

其中 σ2\sigma^2 为总体方差,(1n/N)(1 - n/N)有限总体校正因子(Finite Population Correction)。当 NN 远大于 nn 时,该因子趋近于 1。

分层抽样 (Stratified Sampling)

将总体按某一特征(如性别、年龄段、收入水平)划分为互不重叠的(Strata),然后在每层内独立进行简单随机抽样。分层抽样的优势在于:

  • 保证每个关键子群体在样本中得到充分代表,避免某一层被随机遗漏。
  • 当层内同质性高于层间异质性时,分层估计的方差小于简单随机抽样。

分层抽样中,总体均值的无偏估计为 Xˉst=h=1HNhNXˉh\bar{X}_{\text{st}} = \sum_{h=1}^H \frac{N_h}{N} \bar{X}_h,其中 NhN_h 为第 hh 层的总体规模,Xˉh\bar{X}_h 为层内样本均值。各层的样本量分配可采用比例分配(按 Nh/NN_h/N 分配)或最优分配(奈曼分配,同时考虑层内方差和抽样成本)。

整群抽样 (Cluster Sampling)

将总体划分为若干群(Clusters),随机抽取部分群,对被抽中群内的所有个体进行全面调查。与分层抽样相反,整群抽样要求群间同质、群内异质。其优势在于大幅降低实地调查的差旅和组织成本,尤其适用于地理分布广泛的总体(如全国性入户调查)。代价是群内个体的相关性导致有效样本量缩减,估计方差通常大于同等容量的简单随机抽样。

系统抽样 (Systematic Sampling)

将总体按某种顺序排列后,随机确定起点,每隔固定间隔 kk 抽取一个个体。系统抽样操作简便,且在总体顺序随机时等价于简单随机抽样。但若总体存在周期性波动(如按星期排列的日销售额),抽样间隔与周期同步将引入严重偏误。

抽样分布与中心极限定理

样本统计量(如样本均值)本身是一个随机变量,其概率分布称为抽样分布(Sampling Distribution)。中心极限定理(Central Limit Theorem, CLT)是统计推断最重要的理论支柱:无论总体分布如何,只要样本量足够大(通常 n30n \geq 30),样本均值的抽样分布近似服从正态分布 N(μ,σ2/n)N(\mu, \sigma^2/n)

由此可得总体均值 μ\mu 的置信区间:

Xˉ±zα/2σn\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}

这一定理使得基于样本的假设检验置信区间估计成为可能,是频率学派统计推断的核心。

抽样误差与非抽样误差

  • 抽样误差(Sampling Error):仅因抽取部分个体而非全部总体而产生的估计误差。抽样误差是可量化的——通过标准误体现——并随样本量增大而递减(速度与 n\sqrt{n} 成正比)。
  • 非抽样误差(Non-sampling Error):与抽样机制无关的误差,包括测量误差、无回答偏误(某些群体系统性地拒绝参与调查)、覆盖偏误(抽样框未能覆盖总体中的所有个体)和处理误差。非抽样误差不会随样本量增大而自然消失,往往比抽样误差更难控制,也是现代调查统计学的核心挑战。

非概率抽样

当随机抽样不可行时,研究者常采用非概率抽样方法:

  • 便利抽样(Convenience Sampling):选取最容易接触的个体(如街头拦截调查),成本极低但代表性存疑。
  • 判断抽样(Judgment Sampling):研究者依据专业知识选取典型个体,常见于探索性研究。
  • 配额抽样(Quota Sampling):按总体特征配额分配样本,但个体选择非随机,无法计算抽样误差。
  • 滚雪球抽样(Snowball Sampling):由初始受访者引荐更多受访者,适用于稀有群体或隐藏群体的研究。

非概率抽样的共同弱点在于无法保证每个个体的入选概率已知,因此不能基于概率论严格量化估计误差,统计推断的有效性依赖于外部假设和专家判断而非数学定理。

应用场景

抽取技术广泛应用于:

  • 官方统计:全国人口普查后的抽样复核、劳动力调查、消费者价格指数(CPI)的一篮子商品选择。
  • 市场调研:消费者满意度调查、品牌认知度研究、新产品概念测试。
  • 质量管控:工业生产线上的统计过程控制(SPC),通过抽取样本判断生产过程是否处于受控状态。
  • 医学与公共卫生随机对照试验(RCT)中的受试者招募与分组、流行病学中的横断面调查。
  • 计算统计学Bootstrap 重抽样方法通过对原始样本的重复抽取来估计统计量的抽样分布和标准误,是现代计算统计学的核心工具之一。

从数学本质上看,抽取架起了有限观测与无限未知之间的桥梁。在不可能穷尽总体的现实约束下,科学设计的抽取方案使得从部分推向整体的逻辑跳跃具备了概率论的严格保障,这正是统计推断区别于纯哲学思辨的根本所在。