ARTICLE

缺失值

缺失值 (Missing Values) 缺失值(Missing Values)是指在数据收集或数据处理过程中,由于各种原因导致数据集中某些观测单元在部分变量上没有记录值的情况。缺失值是应用统计学和计量经济学实证研究中普遍存在且不可回避的问题,几乎任何涉及真实数据的分析都面临如何处理缺失值的抉择。不恰当地处理缺失值可能导致估计偏误、统计功效降低、标准误失真,

浏览 2 更新 2025-10-29

缺失值 (Missing Values)

缺失值(Missing Values)是指在数据收集或数据处理过程中,由于各种原因导致数据集中某些观测单元在部分变量上没有记录值的情况。缺失值是应用统计学计量经济学实证研究中普遍存在且不可回避的问题,几乎任何涉及真实数据的分析都面临如何处理缺失值的抉择。不恰当地处理缺失值可能导致估计偏误统计功效降低、标准误失真,甚至得出完全错误的结论。Rubin于1976年建立的缺失数据分类框架至今仍是该领域的理论基础,而Little和Rubin合著的《缺失数据统计分析》则是该领域的权威参考。

缺失数据的三种机制

Rubin根据缺失发生与数据取值之间的关系,将缺失机制分为三类,这是选择处理方法的逻辑起点。

完全随机缺失(MCAR, Missing Completely At Random):缺失的发生与数据集中所有变量(包括已观测和缺失变量本身)均无关。设完整数据矩阵为 Y\mathbf{Y},缺失指示矩阵为 M\mathbf{M},则MCAR意味着:

P(MY)=P(M)P(\mathbf{M} \mid \mathbf{Y}) = P(\mathbf{M})

即缺失概率为常数,不依赖于任何数据值。例如,问卷中由于随机翻页失误而遗漏的问题、实验室设备偶然故障导致的部分读数丢失。在MCAR下,完全案例分析(仅使用完整观测)虽损失效率,但不会产生偏误。然而MCAR是最强的假设,在实际社会经济数据中很少成立。

随机缺失(MAR, Missing At Random):缺失的发生与已观测到的变量有关,但在控制这些已观测变量后,与缺失变量自身的取值无关。形式上:

P(MY)=P(MYobs)P(\mathbf{M} \mid \mathbf{Y}) = P(\mathbf{M} \mid \mathbf{Y}_{\text{obs}})

其中 Yobs\mathbf{Y}_{\text{obs}} 为已观测到的数据部分。例如,高收入者更倾向于不报告收入,但在给定教育水平、职业和年龄后,是否报告收入与收入本身不再相关。MAR比MCAR弱得多,并且在多数精心设计的调查中是可辩护的假设。在MAR下,基于似然函数的方法(如最大似然估计)和多重插补可以产生一致且有效的估计。

非随机缺失(MNAR, Missing Not At Random):即便控制了所有已观测变量,缺失仍与缺失变量自身的取值相关。即:

P(MY)=P(MYobs,Ymis)P(\mathbf{M} \mid \mathbf{Y}) = P(\mathbf{M} \mid \mathbf{Y}_{\text{obs}}, \mathbf{Y}_{\text{mis}})

其中 Ymis\mathbf{Y}_{\text{mis}} 为缺失值本身。例如,吸毒者在调查中系统性隐瞒吸毒行为、亏损企业在财务披露中刻意省略关键指标。MNAR是最棘手的情形,因为缺失机制本身包含关于缺失值的信息,任何忽略这一机制的简单处理方法都可能产生选择性偏误(Selection Bias)。处理MNAR通常需要显式地对缺失机制进行建模,如Heckman选择模型模式混合模型(Pattern-Mixture Models)。

缺失值处理方法

删除法是最简单但往往最危险的方法。列表删除(Listwise Deletion)丢弃任何含缺失值的整条观测,仅在MCAR下产生无偏估计,但即使MCAR成立也会大幅损失样本量和统计功效。成对删除(Pairwise Deletion)在计算各统计量时使用所有可用观测,但导致协方差矩阵可能非正定,且不同统计量基于不同样本,其标准误难以正确推导。删除法的最大风险在于:当数据为MAR或MNAR时,完整子集不再代表总体,估计量产生系统性偏误。

单一插补(Single Imputation)用某个具体值替换缺失值。常见做法包括均值插补(用变量均值填充)和回归插补(用已观测变量建立回归模型预测缺失值)。均值插补会人为降低变量方差、扭曲相关性;回归插补虽利用变量间关系,但低估标准误,因为它将预测值当作真实值对待,忽略了预测的不确定性。

多重插补(Multiple Imputation, MI)由Rubin于1987年提出,是处理MAR缺失的现代标准方法。其核心思想是:对每个缺失值生成 mm 个(通常 m=5m = 5 至 20)合理替代值,构造 mm 个完整数据集;对每个完整数据集分别进行标准的完整数据分析;最后使用Rubin规则mm 组结果合并。设 θ^j\hat{\theta}_j 为第 jj 个数据集的参数估计,Var^j\widehat{\text{Var}}_j 为其方差估计,合并估计为:

θˉ=1mj=1mθ^j\bar{\theta} = \frac{1}{m} \sum_{j=1}^{m} \hat{\theta}_j

合并方差为:

T=Wˉ+(1+1m)BT = \bar{W} + \left(1 + \frac{1}{m}\right) B

其中 Wˉ=1mVar^j\bar{W} = \frac{1}{m}\sum \widehat{\text{Var}}_j 为组内方差,B=1m1(θ^jθˉ)2B = \frac{1}{m-1}\sum (\hat{\theta}_j - \bar{\theta})^2 为组间方差。因子 (1+1/m)(1 + 1/m) 校正了有限 mm 带来的额外不确定性。MI正确反映了插补的不确定性,在MAR假设下给出有效的统计推断。

最大似然估计(Maximum Likelihood Estimation)则是另一主流路径:直接基于观测数据的边际分布构建似然函数,通过期望最大化算法(EM Algorithm)迭代求解,无需显式填补缺失值。在MAR假设下,MLE给出的一致估计具有全部期望的渐近性质。

计量经济学中的应用与注意事项

劳动经济学发展经济学等依赖调查数据的领域中,收入、工时、健康指标等关键变量常存在系统性缺失。面板数据中,样本磨损(Attrition)是另一种形式的缺失——个体在后续轮次中退出调查。若磨损与结果变量相关(如失业者更难追踪),则属于MNAR情形,需借助逆概率加权(IPW)或选择模型进行校正。

实践中需注意:多重插补的插补模型应包含所有分析模型中的变量以及可能预测缺失的辅助变量;插补模型与分析模型的分布假设应兼容;当怀疑MNAR时,应进行敏感性分析——在不同缺失机制假设下检验结论的稳健性。机器学习方法(如随机森林、深度生成模型)已被用于辅助缺失值处理,但其对统计推断性质的影响仍是活跃课题。

此外, extbf{虚拟变量调整法}(Dummy Variable Adjustment)通过在回归中加入缺失指示变量来部分缓解缺失偏误,但该方法在MAR下也可能产生不一致估计。 extbf{末次观测结转}(LOCF)在临床试验中曾广泛使用,将最后一次观测值直接复制到后续缺失点,但因其系统性低估变异而备受批评。报告缺失值处理时需透明说明:缺失比例、缺失机制假设、所采用的具体方法及其依据,并在条件允许时进行敏感性分析,以增强研究结论的可信度。