ARTICLE

抽样单位

抽样单位 (Sampling Unit) 抽样单位→抽样调查设计中的基本选择单元→在抽样各阶段被选中进入样本的个体或个体集合。它是抽样框中列示、可供随机抽取的实体→区别于观测单元(实际测量/访谈的对象)和分析单元(最终数据分析的基本个体)。抽样单位的界定直接影响抽样效率、估计精度与实施成本→是抽样设计首要决策之一。 层级结构与类型 抽样单位在多阶段抽样中呈现

浏览 4 更新 2026-07-14

抽样单位 (Sampling Unit)

抽样单位抽样调查设计中的基本选择单元→在抽样各阶段被选中进入样本的个体或个体集合。它是抽样框中列示、可供随机抽取的实体→区别于观测单元(实际测量/访谈的对象)和分析单元(最终数据分析的基本个体)。抽样单位的界定直接影响抽样效率、估计精度与实施成本→是抽样设计首要决策之一。

层级结构与类型

抽样单位在多阶段抽样中呈现层级嵌套:

  1. 初级抽样单位 (Primary Sampling Unit, PSU):首阶段抽取的最大集群→如全国入户调查中先抽街道/社区,PSU即为街道/社区。
  2. 次级抽样单位 (Secondary Sampling Unit, SSU):PSU内进一步抽取的子群→上例中社区内再抽住户,住户为SSU。
  3. 最终抽样单位 (Ultimate Sampling Unit, USU):最后阶段的抽取对象→直接进入数据采集的最小单元→如上例中的受访个人。

典型抽样单位类型:个人(社会调查最常用)→住户/家庭(收入支出调查→以户为自然消费决策单元)→企业/机构(产业组织研究→企业为生产函数估计的基本单位)→地块/网格(农业统计/生态抽样→空间抽样单位)→行政区域(人口普查的计数区→多阶段抽样中的PSU)→交易记录(大数据抽样→电商平台以订单为抽样单位)。

与关键概念的关系

vs 抽样框:抽样框是抽样单位的实际名录或清单→抽样单位是概念,抽样框是操作→理想情况下一一对应,但现实中覆盖不足(遗漏部分单位)或过度覆盖(包含非目标单位)→产生抽样误差vs 观测单元:在单阶段简单随机抽样中二者通常重合(抽个人=访个人)→多阶段抽样的USU常等于观测单元→但整群抽样中PSU为群、观测单元为群内所有个体→二者分离。vs 分析单元:分析单元是统计推断的目标实体→可与抽样单位不同→如以班级为抽样单位但以学生个体为分析单元→引入聚类标准误处理组内相关性。

抽样设计的核心考量

选择抽样单位需权衡:

效率与精度:大抽样单位→降低单位抽取成本但增大设计效应(群内同质→有效样本量减少)→需平衡群内相关系数ρ\rho与成本函数。可操作性与抽样框质量→PSU越大越易获取完整名录(如全国性调查以县级行政区为PSU→统计局有完整名单)→但代价是群内个体差异被浪费。异质性捕获:抽样单位的粒度决定能捕获的变异层次→过粗粒度的抽样单位忽略亚群体差异→如仅以家庭为单位无法分析家庭内部性别差异。

设计效应deff=1+(nˉ1)ρ \text{deff} = 1 + (\bar{n} - 1)\rho →其中nˉ\bar{n}为每群平均样本量、ρ\rho组内相关系数ρ>0\rho>0时群抽样有效性低于简单随机抽样nˉ\bar{n}越大则deff恶化越严重→提示PSU内过多样本并不经济。

应用实例

全国人口变动抽样调查:PSU=县级行政区→SSU=村/居委会→USU=住户→观测单元=住户内所有常住人口→分析单元=个人。消费者价格指数调查:PSU=城市→SSU=商业区/市场→USU=零售网点→观测单元=具体商品价格→分析单元=规格品。企业创新调查:抽样单位=企业(工商登记名录为框)→按行业/规模分层→简单随机抽取企业→分析单元=企业→观测单元=企业研发负责人。

大数据场景:在线A/B实验中→抽样单位=用户会话或设备ID→抽样框=实验期活跃用户流→随机分流至对照组/实验组→此时抽样单位、观测单元、分析单元三者重合→简化了传统调查中的多阶段复杂性。

常见误区

  1. 混淆抽样单位与观测单元→多阶段设计中两者常不等→需在分析阶段调整权重与标准误。二. 忽视抽样单位层级的方差结构→以PSU为分析单位而忽略群内相关→导致I类错误膨胀→须使用聚类稳健标准误多层模型。三. 抽样框与抽样单位不匹配→如框以地址为单位但抽样单位为个人→一址多人的概率选择不等→须做加权校正。核心原则:抽样单位的选择必须服务于统计推断目标→在成本约束下最小化均方误差