ARTICLE
抽样框
抽样框 (Sampling Frame) 是抽样调查中用以抽选样本的完整名单、地图或数据库,它界定了实际可能被抽取的全体单元。抽样框的质量直接决定样本的代表性与推断的有效性——它是连接理论总体与实际样本的桥梁,也是抽样误差(尤其是非抽样误差)的主要来源之一。 1. 定义与直觉 在理想情形中,抽样框应当与目标总体 (Target Population) 完全重
抽样框 (Sampling Frame) 是抽样调查中用以抽选样本的完整名单、地图或数据库,它界定了实际可能被抽取的全体单元。抽样框的质量直接决定样本的代表性与推断的有效性——它是连接理论总体与实际样本的桥梁,也是抽样误差(尤其是非抽样误差)的主要来源之一。
1. 定义与直觉
在理想情形中,抽样框应当与目标总体 (Target Population) 完全重合。目标总体是研究者希望推断的对象(如"某市全部常住居民"),而抽样框则是实际可供抽样的单元集合(如"该市公安局户籍登记系统")。
将抽样框理解为"抽样的彩票池"最为直观:如果池中缺少某些人(覆盖不足)或混入了不该在池中的人(过覆盖),那么中奖者(样本)就无法代表全体目标总体。更正式地,令 为目标总体、 为抽样框,则抽样框误差取决于 (覆盖不足)、(过覆盖)以及 中单元的重复或多重罗列。
2. 抽样框与目标总体的关系
抽样框 与目标总体 之间可能出现四种典型情形:
- 完全覆盖 (): 理想情形,无框误差
- 覆盖不足 (Undercoverage) (): 部分群体被系统排除,估计有偏
- 过覆盖 (Overcoverage) (): 扩大了实际抽选范围,需筛选
- 部分交叠+多重记录 ( 非空,且 含重复): 复杂误差结构,需权重调整
覆盖不足是最危险的误差类型,因为它往往与目标变量相关——例如,仅使用固定电话名录作为抽样框会系统性排除仅使用手机的人群,而该人群通常更年轻,若调查主题与年龄相关则估计将产生系统性偏差。这种偏差不能通过增大样本量来消除。
3. 抽样框误差类型
抽样框误差可细分为以下几类:
- 覆盖不足:目标总体中的部分单元在抽样框中不存在。例如,以上海市机动车登记数据库作为抽样框研究驾驶员行为,但未登记的电动车或无证驾驶者被排除在外。
- 过覆盖:抽样框中包含了并非目标总体的单元。例如,从某医院的就诊记录中抽取患者样本,但记录中包含已故或迁出的患者。
- 重复罗列 (Duplication):同一单元在抽样框中出现多次,导致其被抽中的概率被人为放大。若未作调整,样本统计量将向该单元特征偏移。
- 聚类 (Clustering):抽样框中的"单元"并非最小分析单元,而是地理区块或群体。例如,以学校为初级抽样单元、再在校园内抽取学生,这引入了设计效应 (Design Effect) 的损失。
上述误差的综合效应可以用覆盖偏差 (Coverage Bias) 来度量。设 为总体参数的真值, 为基于抽样框 的样本估计,则覆盖偏差为 。若覆盖模式与目标变量相关,该偏差通常无法通过事后调整完全消除。
4. 常见抽样框类型
根据调查设计的复杂度,抽样框可以采取多种形式:
- 名单框 (List Frame):最直观的形式,如选民登记名册、企业注册名录、学生花名册。要求名单完整、无重复、可定位。
- 区域框 (Area Frame):以地理区域(街区、普查小区、网格)为初级单元,配合地图与地址数据库。常用在没有完备名单的发展中国家或针对特定地理范围的调查。
- 多阶段抽样框 (Multi-stage Frame):在不同阶段使用不同抽样框。例如第一阶段以区县为 PSU(初级抽样单元),第二阶段以街道为 SSU,第三阶段以户籍名单为 TSU。每一阶段都需要独立的抽样框。
- 电话号码/地址框:通过随机数字拨号 (RDD) 或邮政地址数据库构建,适用于电话或邮寄调查。近年来手机号段与座机号段的分化使得 RDD 抽样框的构建日趋复杂。
在大型政府统计中,常构建主抽样框 (Master Sampling Frame)——一个集成了行政记录、人口普查数据与地理信息的综合抽样资源,可供多个调查重复使用。例如中国的人口普查抽样框、美国国家健康统计中心的 NHIS 抽样框等。
5. 构建与评估
评估抽样框质量的核心维度包括:
- 覆盖完整性 (Coverage Completeness): 的比率是否接近 1。使用行政数据与普查数据的比对可以作为评估手段。
- 时效性 (Timeliness):抽样框是否反映了目标总体的最新状态。人口迁移、企业倒闭或新注册都会导致框的过时。
- 准确性 (Accuracy):框内每个单元的识别信息(姓名、地址、ID)是否准确无误。
- 可链接性 (Linkability):能否将抽样框与辅助数据(如行政记录、经济普查数据)进行精确匹配,以支持后续的校准加权或非响应调整。
构建高质量的抽样框往往需要结合多源数据:行政登记(户籍、税务、社保)、普查数据、地理信息系统 (GIS) 以及商业数据库。近年来,基于高分辨率遥感影像与建筑轮廓的自动区域框构建技术正在兴起,提升了统计效率并降低了实地勘察成本。
6. 总结
- 覆盖完整性: 是否有群体被系统排除?
- 重复控制: 每个单元是否仅出现一次?
- 信息准确: 联系信息是否可追溯、可验证?
- 动态更新: 多久更新一次以反映总体变化?
抽样框是抽样调查的基石——再精巧的抽样设计和再大的样本量也无法弥补抽样框本身的系统性缺陷。理解抽样框与目标总体之间的偏差及其对估计的影响,是从事调查统计与数据科学工作者不可回避的基本素养。在行政数据越来越丰富的时代,如何利用多源数据构建更完备、更高效的抽样框,仍是官方统计与学术研究的前沿课题。