ARTICLE
数据缺失
数据缺失 (Missing Data) 数据缺失(Missing Data)是统计推断与计量经济学分析中普遍存在且极具挑战性的问题,指在计划观测的数据集中,部分变量的取值因各种原因未能被记录。数据缺失不仅降低统计效率,更可能引入偏误(bias)——当缺失机制与未观测因素相关时,基于完整数据的推断将严重偏离真实参数。对缺失数据的恰当处理已成为实证研究的核心环节
数据缺失 (Missing Data)
数据缺失(Missing Data)是统计推断与计量经济学分析中普遍存在且极具挑战性的问题,指在计划观测的数据集中,部分变量的取值因各种原因未能被记录。数据缺失不仅降低统计效率,更可能引入偏误(bias)——当缺失机制与未观测因素相关时,基于完整数据的推断将严重偏离真实参数。对缺失数据的恰当处理已成为实证研究的核心环节。
缺失机制:分类与内涵
现代缺失数据处理的理论基石由Rubin(1976)奠定。他依据缺失机制与观测数据之间的关系,将缺失数据分为三类。
完全随机缺失(Missing Completely at Random, MCAR)是指数据缺失与观测值及未观测值均无关,即缺失纯粹是一个随机子抽样过程。例如,实验室仪器因停电随机失效导致部分测量值缺失。在MCAR下,基于完整观测数据的分析仍是无偏的,仅损失效率。
随机缺失(Missing at Random, MAR)是指给定观测数据后,缺失概率与未观测值无关。例如,在面板数据中,低收入的个体更可能不报告收入,但只要收入缺失的概率仅取决于已观测到的年龄、教育等变量,则可视为MAR。多重插补与极大似然法在MAR假设下可得到一致估计。
非随机缺失(Missing Not at Random, MNAR)又称不可忽略缺失(Non-ignorable Missing),指缺失概率取决于未观测到的变量本身。例如,高收入者出于隐私顾虑拒绝报告收入——即使控制了所有可观测特征,缺失仍与收入值直接相关。MNAR的处理最为困难,通常需要借助Heckman选择模型、工具变量或敏感性分析。
经典处理方法
列删法(Listwise Deletion)删除任何含缺失值的观测。该方法仅在MCAR下有效,且当缺失比例较高时严重浪费样本,还可能造成选择偏误。成对删除(Pairwise Deletion)使用各变量对的所有可用观测,虽保留更多信息,却可能导致协方差矩阵非正定。
单一插补(Single Imputation)包括均值插补、回归插补和热卡插补。均值插补虽简单,但会压缩分布方差、系统性低估标准误。回归插补改善了方差估计,但仍将插补值视为真实值,忽略了插补的不确定性。
多重插补
多重插补(Multiple Imputation, MI)由Rubin(1987)系统化,是目前应用最广的缺失数据处理框架。其核心思路分三步:① 基于观测数据为每个缺失值生成 个(通常 —)合理的插补值,反映插补的抽样不确定性;② 对每个完整数据集分别执行标准分析,得到 组估计结果;③ 依据Rubin规则(Rubin's Rules)将 组结果合并为最终估计,合并后的方差同时反映组内方差与组间方差。
MI的一个关键优势在于它自然分离了插补阶段与分析阶段,研究者可在首次插补后执行任何标准推断。MICE(Multiple Imputation by Chained Equations)是最灵活的MI实现:对每个含缺失值的变量分别设定条件分布,通过迭代抽样来逼近联合分布。
极大似然与EM算法
在参数模型框架下,极大似然估计(MLE)可直接处理MAR缺失:对缺失变量作积分得到仅含观测数据的边际似然并最大化之。EM算法(Expectation-Maximization Algorithm)是求解该问题的标准迭代方法——E步计算缺失变量的条件期望,M步对"填充后"的完整数据作MLE更新。EM算法在每一步均保证似然不降,且大样本下收敛至一致估计。实践中常结合Bootstrap来校正标准误。
计量经济学中的内生缺失
在面板数据和微观计量经济学中,缺失数据常与样本选择偏误(Sample Selection Bias)和 attrition (样本损耗)相关联。Heckman两阶段法通过在第一阶段Probit模型中估计选择方程、在第二阶段将逆米尔斯比率(Inverse Mills Ratio)纳入回归来纠正非随机缺失导致的偏误。差分中的差分(Difference-in-Differences, DID)和工具变量方法在处理不平衡面板时同样面临缺失数据的挑战,近年来的文献推荐结合多重插补与匹配方法以提高估计的稳健性。
现代机器学习方法
近年来,深度学习和生成模型被引入缺失数据领域。GAIN(Generative Adversarial Imputation Nets)利用对抗训练生成与真实分布不可区分的插补值。MissForest基于随机森林,能自动捕捉变量间的非线性交互关系。矩阵补全(Matrix Completion)通过低秩分解恢复含缺失的观测矩阵,在基因表达数据和社会网络分析中取得显著效果。
> 核心直觉:缺失数据处理的本质是在偏误与方差之间权衡——列删法若无偏则低效,简单插补效率高但有偏,多重插补与似然法在适当的缺失机制假设下可取得无偏且统计高效的结果。对研究者而言,理解缺失机制、进行敏感性分析、透明报告处理流程,比选择"最佳"方法更为关键。