ARTICLE

无应答偏差

无应答偏差 无应答偏差(Non-response Bias)是指在问卷调查、入户访谈、电话访问或在线调研等调查研究中,由于部分目标受访者未能参与或未能完成调查,导致最终样本在核心变量上的分布偏离目标总体真实分布,从而产生的系统性偏差。无应答偏差不同于随机抽样误差:后者随样本量增大而收敛于零,而前者并不因样本规模的扩大而自动消除,反而可能因自选样本量的增加而加

浏览 4 更新 2026-07-14

无应答偏差

无应答偏差(Non-response Bias)是指在问卷调查、入户访谈、电话访问或在线调研等调查研究中,由于部分目标受访者未能参与或未能完成调查,导致最终样本在核心变量上的分布偏离目标总体真实分布,从而产生的系统性偏差。无应答偏差不同于随机抽样误差:后者随样本量增大而收敛于零,而前者并不因样本规模的扩大而自动消除,反而可能因自选样本量的增加而加剧偏差的统计显著性。

无应答的类型

无应答可划分为单位无应答(Unit Non-response)与项目无应答(Item Non-response)两个层次。单位无应答指目标受访者完全未参与调查,典型原因包括无法触及(地址失效、电话关机、无人接听——联络失败)、被访者拒访(无时间、无兴趣、隐私担忧——拒访)、或因语言障碍、健康问题等客观条件无法参与(能力受限)。项目无应答指受访者参与了调查但跳过或拒绝回答某些特定问题,常见于敏感话题(收入、性行为、违法行为)、开放式问题或要求回忆过去事件的回溯性问题。在纵向追踪调查(Panel Survey)中,还存在波次无应答(Wave Non-response),即受访者在后续轮次中流失(样本 attrition),此类缺失尤其棘手,因为流失通常与核心研究变量相关——例如,追踪贫困家庭的经济动态时,收入最低的家庭往往最易流失。

产生机制与偏差方向

无应答偏差的大小并非由无应答率单独决定,而是取决于两个因素的乘积:(1) 无应答率的大小;(2) 应答者与无应答者在研究关键变量上的均值差异。用公式表达:若总体均值 μ\mu,应答者均值 μr\mu_r,无应答者均值 μnr\mu_{nr},应答率 rr,则 μ=rμr+(1r)μnr\mu = r\mu_r + (1-r)\mu_{nr},由此偏差 Bias=μrμ=(1r)(μrμnr)Bias = \mu_r - \mu = (1-r)(\mu_r - \mu_{nr})。当无应答率固定时,偏差随应答-无应答差异的增大而增大。这一关系意味着,高应答率(如 90\%)并不能保证低偏差——如果那10\%的无应答者在核心变量上与应答者存在极大差异,偏差仍可能不可忽视;反之,即便应答率只有 30\%,若无应答者与应答者在研究变量上相近,偏差也可能很小。

例如,在选举民意调查中,政治参与度高的选民更可能接听调查电话并回答投票意向问题,而政治冷漠的选民更容易拒访——若后者在投票行为上与前者存在系统性差异,则调查结果将高估投票率并高估某一候选人的支持率。类似地,在患者满意度调查中,走过极端路径的患者(极度满意或极度不满)更倾向于主动填写反馈问卷,而持中间立场的患者往往保持沉默,导致满意度分布呈"J型"扭曲。

统计处理方法

统计学家与调查方法学者发展了一系列无应答调整策略,按其介入阶段可分为设计阶段与事后调整阶段两类。

在设计阶段,首要策略是预防——通过精心设计的问卷、激励措施、多次跟进(Call-back)和缩短问卷长度来最小化拒访率。双样本设计(Two-phase Sampling)是另一种策略:先对无应答者进行高成本的强化追踪(如从电话调查转为入户面访),利用强化阶段获得的数据估计无应答机制。替代样本(Replacement Sampling)虽在实践中常用,但若替代过程未引入随机性,可能引入新偏差。

在事后调整阶段,最常用的方法是加权调整(Weighting Adjustment)。其核心思路是计算应答倾向得分(Response Propensity Score)——通过LogitProbit模型以受访者的背景特征(年龄、性别、居住地、社会经济地位)预测其应答概率——然后给应答者赋予权重 wi=1/p^iw_i = 1/\hat{p}_i,使得高拒访概率的应答者在统计上代表更多无法观测的无应答者。事后分层(Post-stratification)是更简单的加权方法:将样本按人口学特征分组,使各组的权重与总体已知分布对齐。插补法(Imputation)主要用于处理项目无应答——均值插补热卡插补(Hot-deck Imputation)、回归插补多重插补(Multiple Imputation,Rubin, 1987)各有适用的缺失机制假设。Heckman选择模型(Heckman, 1979)将无应答视为样本选择问题,通过两阶段估计纠正选择性偏差:第一阶段用Probit模型估计应答决策方程,计算逆米尔斯比率(Inverse Mills Ratio),第二阶段将其作为修正项纳入主回归方程。

无应答机制分类与诊断

Rubin(1976)提出的缺失数据分类体系为无应答偏差的诊断和纠正提供了理论基础:(1) 完全随机缺失(Missing Completely at Random, MCAR)——无应答完全由与数据无关的外部因素决定,此时基于完全观测数据的分析仍为无偏,但统计效率降低;(2) 随机缺失(Missing at Random, MAR)——无应答概率依赖于已观测到的变量(如年龄、性别),但条件于这些变量后与未观测的变量值无关,此时加权调整或基于似然的插补方法可消除偏差;(3) 非随机缺失(Not Missing at Random, NMAR)——无应答概率与未观测到的变量值本身相关,这是最危险的情形,因为数据本身无法提供识别该机制的充分信息,需借助敏感性分析工具变量等外部信息。

实务中诊断无应答偏差的常用方法包括:早期-晚期应答者比较(将早期应答者与经过多次跟进后才应答的"晚期"应答者比较,后者被认为更接近无应答者);已知总体参数对照(若已知总体的某些人口特征分布,将其与样本分布对比,从可观测维度的偏差推断不可观测维度的风险);以及强化追踪子样本分析(对无应答者子集投入额外资源完成调查,直接评估偏差方向与幅度)。

无应答偏差的学科影响

无应答偏差的影响横跨诸多学科。在流行病学公共卫生中,健康行为调查的低应答率可能导致患病率和危险行为发生率的严重低估;在政治学中,低应答率已多次导致总统大选民意调查的预测失准(如 1936 年《文学文摘》的著名误判和 2016 年多项州级民调的偏差);在经济学中,家庭收入与消费支出调查的无应答偏差会扭曲基尼系数估计,同时导致CPI篮子权重计算的系统误差。在机器学习数据科学领域,无应答可视为一种特殊的选择偏差——当训练数据完全基于自愿提供的样本(如在线评分、传感器日志)时,模型的泛化能力将受到严重制约,这一点在推荐系统广告点击率预测中已有广泛实证。