ARTICLE

抽样

抽样 (Sampling) 抽样是从总体中按规则选取部分个体形成样本,进而推断总体特征的核心方法。相较于普查,抽样具有成本效益、及时性、可行性和准确性优势。 核心概念 总体:全部个体的集合(有限/无限) 样本:从总体抽取的部分,必须具有代表性 抽样单位:被抽取的基本单元 抽样框:包含所有抽样单位的清单,直接影响样本代表性 参数:总体特征( , P, ),未知

浏览 44 更新 2025-10-26

抽样 (Sampling)

抽样是从总体中按规则选取部分个体形成样本,进而推断总体特征的核心方法。相较于普查,抽样具有成本效益、及时性、可行性和准确性优势。

核心概念

  • 总体:全部个体的集合(有限/无限)
  • 样本:从总体抽取的部分,必须具有代表性
  • 抽样单位:被抽取的基本单元
  • 抽样框:包含所有抽样单位的清单,直接影响样本代表性
  • 参数:总体特征(μ\mu, PP, σ\sigma),未知固定常量
  • 统计量:样本特征(xˉ\bar{x}, pp, ss),随机变量

抽样方法

概率抽样

每个单位有已知非零概率被选中,可进行正式统计推断并计算抽样误差

  1. 简单随机抽样 (SRS):每个单位等概率被选。理论上最简单,需完整抽样框。当总体庞大或地理分布广时成本高。
  2. 系统抽样:随机起点后按固定间隔 kN/nk \approx N/n 选取。操作简便快捷,但若抽样框存在与间隔相近的周期性可能导致偏误
  3. 分层抽样:按特征分“层”,每层内独立随机抽样。提高代表性,层内同质时可获更高估计精度。需先验知识,设计更复杂。
  4. 整群抽样:随机抽取自然群组,调查群内全部(单阶段)或部分(多阶段)单位。适用于地理分布广、难获取个体抽样框的场景。组内相关性导致抽样误差通常更大。

非概率抽样

基于主观判断或方便性选样,无法计算抽样误差,不可推广到总体。包括方便抽样判断抽样滚雪球抽样配额抽样

抽样误差与非抽样误差

  • 抽样误差:仅观察部分总体产生的随机误差,概率抽样下可通过标准误估计,增加样本量可减小
  • 非抽样误差:普查也无法避免,包括覆盖误差(抽样框不完整)、无应答误差、测量误差、数据处理误差

中心极限定理

中心极限定理 (CLT) 是抽样推断的理论基石:从任意总体(均值 μ\mu,方差 σ2\sigma^2)中抽取大小为 nn 的样本,当 nn 足够大时,样本均值 Xˉ\bar{X}抽样分布近似正态 N(μ,σ2/n)N(\mu, \sigma^2/n)。无论原始分布形状如何,大样本下样本均值分布近似正态,使置信区间假设检验成为可能。