ARTICLE

非抽样误差

非抽样误差(Non-sampling Error)是指在抽样调查过程中,除抽样误差之外,由其他各种原因导致的调查结果与真实值之间的偏差。与抽样误差不同,非抽样误差并非由样本随机波动引起,而是贯穿于调查设计、数据收集、数据处理及数据分析等各个环节的系统性或随机性误差。这类误差不仅存在于抽样调查中,也存在于全面调查中,且往往随着样本量的增大而累积,而非像抽样误差

浏览 5 更新 2025-10-26

非抽样误差(Non-sampling Error)是指在抽样调查过程中,除抽样误差之外,由其他各种原因导致的调查结果与真实值之间的偏差。与抽样误差不同,非抽样误差并非由样本随机波动引起,而是贯穿于调查设计、数据收集、数据处理及数据分析等各个环节的系统性或随机性误差。这类误差不仅存在于抽样调查中,也存在于全面调查中,且往往随着样本量的增大而累积,而非像抽样误差那样随样本量增大而减小。因此,非抽样误差的控制对于保障调查质量具有至关重要的意义。

非抽样误差的主要来源可分为以下几类。其一是覆盖误差(Coverage Error),指目标总体与抽样框之间存在差异所导致的偏差。当抽样框未能完整涵盖目标总体中的全部单元,或者包含了不应属于目标总体的单元时,就会产生覆盖误差。覆盖误差又可细分为欠覆盖误差和过覆盖误差两种类型。欠覆盖误差是指抽样框遗漏了部分目标总体单元,而过覆盖误差则是指抽样框中包含了不属于目标总体的单元。例如,使用电话簿作为抽样框进行调查时,未登记电话号码的家庭将被排除在外,导致对特定群体的系统性遗漏,这便属于欠覆盖误差。又如,使用居民户籍名单进行社区调查时,已搬离该社区的居民若仍保留在名单中,则会造成过覆盖误差。覆盖误差的识别与修正通常需要借助多重抽样框技术或事后分层调整等方法。

其二是无回答误差(Nonresponse Error),指被调查者因拒绝参与、未能联系到或无法完成调查而导致的数据缺失。如果无回答者的特征与回答者存在系统性差异,则调查结果将产生偏倚。无回答误差可以进一步分为单位无回答和项目无回答两种形式。单位无回答是指样本单元完全未参与调查,而项目无回答则是指受访者仅部分回答了问卷中的某些问题,对余下问题选择不作答。提高回答率和采取加权调整方法是减少无回答误差的常用策略。具体而言,研究者可通过多次回访、激励措施、替代样本单元等方式降低单位无回答率;对于项目无回答,则可借助均值插补、回归插补、多重插补等方法处理缺失数据。此外,借助倾向得分加权或校准加权等统计技术,也能在一定程度上减轻无回答带来的系统性偏倚。

其三是测量误差(Measurement Error),指由于问卷设计不当、问题措辞模糊、调查员偏差、回忆偏差或社会期望效应等因素,导致被调查者提供不准确信息所产生的误差。测量误差是调查中最常见且最难以完全消除的误差类型之一。例如,敏感性问题(如收入水平、吸毒行为、投票意向等)往往因社会期望效应而使受访者倾向于少报或多报,从而产生系统性偏倚。又如,在回顾性调查中,受访者对过去事件的发生时间或频率往往难以精确回忆,容易产生回忆偏差。问卷中问题的排序效应、选项的锚定效应以及调查员的语气和引导方式,也均可能诱发测量误差。改进问卷设计、采用随机应答技术、加强调查员培训、使用计算机辅助调查系统等手段可有效降低测量误差。

其四是处理误差(Processing Error),涵盖数据编码、录入、编辑和清理过程中出现的各类人为或程序性错误。例如,编码人员对开放式问题的错误归类、数据录入时的键盘错误,以及异常值识别不当等,均可能引入误差。处理误差在大型调查中尤为突出,因为数据量庞大,人工操作环节多,出错概率随之增加。为减少处理误差,研究机构通常制定标准化的编码手册,采用双录入校验机制,并利用逻辑审核程序自动检测数据中的不合理取值。此外,在数据清理阶段,应保留原始数据与清理后数据的对照记录,以确保数据处理过程的可追溯性和可重复性。

非抽样误差的识别与评估需要结合多种方法与工具。重复调查(Reinterview)是评估测量误差的常用手段,通过对同一批受访者进行再次访问以检验回答的一致性。记录检查法(Record Check)将受访者报告的信息与行政记录或客观数据进行比对,从而量化报告误差的大小。此外,借助方差分析(Analysis of Variance)可将总误差分解为各个来源,帮助研究者判断哪类误差占主导地位。在调查实施过程中,实时监控回答率、接洽率、拒访率等过程指标,有助于及时发现无回答误差的苗头并采取干预措施。

控制非抽样误差需要贯穿调查全流程的系统性质量管控。在设计阶段,应确保抽样框的完整性,优化问卷措辞,选择适当的调查模式(如面访、电话调查、网络调查等)以降低测量误差。在数据收集阶段,需对调查员进行严格培训,建立督导机制并实施过程监控。在数据处理阶段,应制定标准化的编码与录入规则,采用双录入校验和逻辑审核程序。数据发布前,可通过事后权数调整和插补方法处理缺失数据,并通过敏感性分析评估非抽样误差对关键估计量的影响程度。

总之,非抽样误差是决定调查数据质量的核心因素之一。研究者应当在调查设计与执行的全过程中系统性地识别、评估与控制各类非抽样误差,并结合抽样误差的综合考量,才能准确评估调查数据的总体误差水平,进而为实证研究和政策决策提供可靠的数据基础。