ARTICLE
缺失数据 (missing data)
缺失数据 (Missing Data) 缺失数据(missing data)是指数据集中某些变量的观测值未被记录或不可用的情况。在实际研究中,无论是问卷调查、临床试验、传感器采集还是行政记录,缺失数据几乎无处不在。若处理不当,缺失数据会导致估计偏误、统计功效降低、标准误增大,甚至得出误导性结论。因此,理解缺失数据的产生机制并选用恰当的统计方法加以应对,是数据
缺失数据 (Missing Data)
缺失数据(missing data)是指数据集中某些变量的观测值未被记录或不可用的情况。在实际研究中,无论是问卷调查、临床试验、传感器采集还是行政记录,缺失数据几乎无处不在。若处理不当,缺失数据会导致估计偏误、统计功效降低、标准误增大,甚至得出误导性结论。因此,理解缺失数据的产生机制并选用恰当的统计方法加以应对,是数据分析中的关键环节。
缺失数据的处理不仅是技术问题,更是研究效度的核心议题。统计学家 Rubin(1976)奠基性地将缺失数据问题纳入统计推断的正式框架,此后四十余年间,多重插补、极大似然估计和贝叶斯方法等现代技术不断发展,为研究者提供了日益丰富的分析工具。
缺失数据的分类
根据缺失值与其潜在未观测值之间的关系,统计学家 Rubin(1976)提出了经典的三分类框架,这也是当前所有缺失数据处理方法的理论基础。
完全随机缺失(MCAR)
完全随机缺失(Missing Completely At Random, MCAR)是指数据的缺失与否完全独立于所有变量(包括已观测变量和未观测变量)。换言之,缺失的发生是纯粹的随机事件,观测到的数据可视为总体的一个随机子样本。例如,实验室中的某台仪器因偶然断电导致部分记录丢失,且断电与测量值本身无关。
在 MCAR 条件下,基于完整观测数据的分析可以得到无偏估计,但代价是样本量减少导致的效率损失。MCAR 是一种非常强的假设,在实际数据中很少严格成立。常用的检验方法包括 Little's MCAR 检验,通过比较完整观测组与含缺失组的分布差异来判断 MCAR 假设是否合理。
随机缺失(MAR)
随机缺失(Missing At Random, MAR)是指给定已观测变量时,缺失与否的条件分布独立于未观测的缺失值本身。也就是说,缺失的倾向可以通过数据中已观测到的信息进行解释。例如,在一项收入调查中,年轻受访者比年长受访者更可能拒绝报告收入;但控制了年龄之后,收入值本身不影响作答意愿。
MAR 是多重插补和极大似然估计等现代缺失数据处理方法的核心假设。虽然 MAR 无法通过数据进行严格检验(因为它涉及未观测值),但在许多实际场景中 MAR 是比 MCAR 更合理的近似。值得注意的是,研究者可以通过收集尽可能多的协变量来提高 MAR 假定的可信度——纳入更多与缺失机制相关的预测变量,使得"给定已观测变量后缺失条件独立于未观测值"这一假设更有可能成立。
非随机缺失(MNAR)
非随机缺失(Missing Not At Random, MNAR)是指缺失与否依赖于缺失值本身——即使控制了所有已观测变量,缺失的发生仍然与未观测值相关。例如,高收入者更可能拒绝报告收入,即使控制了年龄、职业等因素后依然如此。MNAR 是最难处理的情形,因为数据本身不包含纠正偏误所需的足够信息。处理 MNAR 通常需要借助敏感性分析、模式混合模型(pattern-mixture model)或选择模型(selection model)等专门方法,并依赖于关于缺失机制的额外假设。Heckman(1979)提出的样本选择模型是处理 MNAR 的经典方法之一,通过将缺失机制建模为一个选择方程来校正偏误。
缺失数据的识别与探索
在应用任何处理方法之前,研究者应首先对缺失数据的模式进行系统探索。常用工具包括:
- 缺失数据矩阵图:以图像形式展示每个观测在哪些变量上缺失,常用 R 包 \texttt{mice} 中的 \texttt{md.pattern()} 函数或 Python 中 \texttt{missingno} 库生成。
- 缺失比例统计:计算每个变量的缺失比例。缺失比例超过 5\%–10\% 即应引起关注;超过 40\%–50\% 的变量通常不建议直接插补。
- 缺失与观测组比较:针对每个变量,比较缺失组与观测组在其他变量上的均值分布,以初步判断缺失机制是否接近 MCAR(若两组无显著差异)或 MAR(若有系统性差异)。
缺失数据的处理方法
删除方法
完整观测分析(Listwise Deletion)仅保留所有变量均完整的观测。该方法在 MCAR 下可得无偏估计,但在 MAR 或 MNAR 下可能产生严重偏误,且样本量损失较大。配对删除(Pairwise Deletion)在每个统计量的计算中使用所有可用观测。例如计算协方差矩阵时,每对变量使用各自完整的观测。该方法会带来不同统计量基于不同样本子集的问题,可能导致协方差矩阵非正定。
单一插补
均值/中位数插补用变量的均值或中位数替换缺失值。该方法简便但会严重压缩方差、扭曲变量间的协方差结构、低估标准误,通常不推荐使用。
回归插补利用完整观测建立回归模型,用预测值填补缺失值。相比均值插补,回归插补更好地保留了变量间的关系,但仍会低估方差,因为预测值落在回归线上,没有纳入残差变异。
随机回归插补(Stochastic Regression Imputation)在回归预测值的基础上添加随机残差项,以恢复合理的变异量。该方法比简单回归插补更好,但仍需基于 MAR 假设。
前向/后向填充(Last Observation Carried Forward, LOCF)在纵向数据中,用同一观测最近一次记录的值填补后续缺失值。该方法在药物临床试验中曾广泛使用,但已被证明在大多数情况下会导致有偏估计,现已不再是推荐做法。
多重插补(Multiple Imputation)
多重插补(Multiple Imputation, MI)是目前处理缺失数据最通用、最受推荐的方法之一,由 Rubin(1987)系统提出。其基本流程包括三个步骤:
- 插补阶段(Imputation):基于 MAR 假设,使用已观测变量建立模型,为每个缺失值生成 个(通常 –20)插补值,形成 个完整数据集。
- 分析阶段(Analysis):对每个插补后的完整数据集分别执行目标分析(如线性回归、逻辑回归等),得到 组参数估计。
- 合并阶段(Pooling):使用 Rubin 法则将 组估计合并为最终的点估计和标准误估计。合并后的标准误同时反映了抽样变异和插补不确定性。
常用多重插补方法包括:
- MICE(Multivariate Imputation by Chained Equations):对每个变量依次建立以其他变量为预测变量的条件模型,迭代收敛。MICE 是当前应用最广的多重插补方法,R 的 \texttt{mice} 包和 Python 的 \texttt{sklearn.impute.IterativeImputer} 均实现了该算法。
- 基于联合正态模型的多重插补(Joint Modeling MI):假设所有变量服从多元正态分布,使用马尔可夫链蒙特卡洛(MCMC)方法从后验分布中抽取插补值。
极大似然估计
对于某些分析模型(如结构方程模型、多水平模型),可以直接利用所有可用观测,通过极大似然估计(Full Information Maximum Likelihood, FIML)得到参数估计。FIML 不需要先插补缺失值,其核心思想是边缘化缺失变量,为每个观测基于其可用部分构建似然函数。在 MAR 假设下,FIML 可以得到渐近无偏、一致且有效的估计。
基于模型的方法
期望最大化算法(EM Algorithm)通过迭代两个步骤:E 步(基于当前参数估计计算缺失数据的条件期望)和 M 步(基于"完整"数据最大化似然函数),收敛到参数的极大似然估计。EM 算法计算效率高,但不直接提供标准误,通常需要借助 Bootstrap 或其他方法进行推断。
倾向得分方法通过建立缺失指示变量的 Logit 或 Probit 模型估计每个观测的缺失倾向,基于倾向得分进行加权(逆概率加权,IPW)或分层分析。IPW 通过为完整观测赋予缺失倾向的倒数权重来校正选择性缺失导致的偏误。
实际应用中的建议
- 预防为主:在数据收集阶段尽可能减少缺失,通过合理设计问卷、培训调查员、设置逻辑校验等方式提高数据完整性。
- 记录缺失原因:对于每个缺失值,尽量记录其产生的原因,这有助于判断缺失机制并选择适当方法。
- 进行敏感性分析:多重插补的结论应辅以敏感性分析,检验在不同缺失机制假设下结论的稳健性。
- 报告透明度:在研究报告或论文中详细报告缺失比例、采用的缺失处理方法以及所依赖的假设。
- 适当保留样本:避免仅因为少量缺失就删除大量观测。在样本量有限的研究中,多重插补或 FIML 通常优于完整观测分析。
- 结合领域知识:统计方法不能替代领域知识。理解数据的产生过程、测量工具的特性以及缺失的可能原因,是合理选择处理方案的前提。
参考文献
- Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3), 581–592.
- Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. John Wiley \& Sons.
- Little, R. J. A., \& Rubin, D. B. (2019). Statistical Analysis with Missing Data (3rd ed.). Wiley.
- van Buuren, S. (2018). Flexible Imputation of Missing Data (2nd ed.). CRC Press.
- Enders, C. K. (2010). Applied Missing Data Analysis. Guilford Press.
- Schafer, J. L. (1997). Analysis of Incomplete Multivariate Data. Chapman \& Hall.
- Carpenter, J. R., \& Kenward, M. G. (2013). Multiple Imputation and its Application. Wiley.
- Heckman, J. J. (1979). Sample selection bias as a specification error. Econometrica, 47(1), 153–161.