ARTICLE
抽样单位
抽样单位 (Sampling Unit) 抽样单位→抽样调查设计中的基本选择单元→在抽样各阶段被选中进入样本的个体或个体集合。它是抽样框中列示、可供随机抽取的实体→区别于观测单元(实际测量/访谈的对象)和分析单元(最终数据分析的基本个体)。抽样单位的界定直接影响抽样效率、估计精度与实施成本→是抽样设计首要决策之一。 层级结构与类型 抽样单位在多阶段抽样中呈现
抽样单位 (Sampling Unit)
抽样单位→抽样调查设计中的基本选择单元→在抽样各阶段被选中进入样本的个体或个体集合。它是抽样框中列示、可供随机抽取的实体→区别于观测单元(实际测量/访谈的对象)和分析单元(最终数据分析的基本个体)。抽样单位的界定直接影响抽样效率、估计精度与实施成本→是抽样设计首要决策之一。
层级结构与类型
抽样单位在多阶段抽样中呈现层级嵌套:
- 初级抽样单位 (Primary Sampling Unit, PSU):首阶段抽取的最大集群→如全国入户调查中先抽街道/社区,PSU即为街道/社区。
- 次级抽样单位 (Secondary Sampling Unit, SSU):PSU内进一步抽取的子群→上例中社区内再抽住户,住户为SSU。
- 最终抽样单位 (Ultimate Sampling Unit, USU):最后阶段的抽取对象→直接进入数据采集的最小单元→如上例中的受访个人。
典型抽样单位类型:个人(社会调查最常用)→住户/家庭(收入支出调查→以户为自然消费决策单元)→企业/机构(产业组织研究→企业为生产函数估计的基本单位)→地块/网格(农业统计/生态抽样→空间抽样单位)→行政区域(人口普查的计数区→多阶段抽样中的PSU)→交易记录(大数据抽样→电商平台以订单为抽样单位)。
与关键概念的关系
vs 抽样框:抽样框是抽样单位的实际名录或清单→抽样单位是概念,抽样框是操作→理想情况下一一对应,但现实中覆盖不足(遗漏部分单位)或过度覆盖(包含非目标单位)→产生抽样误差。vs 观测单元:在单阶段简单随机抽样中二者通常重合(抽个人=访个人)→多阶段抽样的USU常等于观测单元→但整群抽样中PSU为群、观测单元为群内所有个体→二者分离。vs 分析单元:分析单元是统计推断的目标实体→可与抽样单位不同→如以班级为抽样单位但以学生个体为分析单元→引入聚类标准误处理组内相关性。
抽样设计的核心考量
选择抽样单位需权衡:
效率与精度:大抽样单位→降低单位抽取成本但增大设计效应(群内同质→有效样本量减少)→需平衡群内相关系数与成本函数。可操作性与抽样框质量→PSU越大越易获取完整名录(如全国性调查以县级行政区为PSU→统计局有完整名单)→但代价是群内个体差异被浪费。异质性捕获:抽样单位的粒度决定能捕获的变异层次→过粗粒度的抽样单位忽略亚群体差异→如仅以家庭为单位无法分析家庭内部性别差异。
设计效应:→其中为每群平均样本量、为组内相关系数→时群抽样有效性低于简单随机抽样→越大则deff恶化越严重→提示PSU内过多样本并不经济。
应用实例
全国人口变动抽样调查:PSU=县级行政区→SSU=村/居委会→USU=住户→观测单元=住户内所有常住人口→分析单元=个人。消费者价格指数调查:PSU=城市→SSU=商业区/市场→USU=零售网点→观测单元=具体商品价格→分析单元=规格品。企业创新调查:抽样单位=企业(工商登记名录为框)→按行业/规模分层→简单随机抽取企业→分析单元=企业→观测单元=企业研发负责人。
大数据场景:在线A/B实验中→抽样单位=用户会话或设备ID→抽样框=实验期活跃用户流→随机分流至对照组/实验组→此时抽样单位、观测单元、分析单元三者重合→简化了传统调查中的多阶段复杂性。