ARTICLE
outlier
异常值 (Outlier) 异常值(Outlier),又称离群值或野值,指在数据集中与其他观测值显著偏离、处于数据分布极端位置或与整体模式不一致的个别数据点。在统计学和计量经济学中,异常值的存在可能源于测量误差、数据录入错误、样本异质性或真实的极端事件,其对统计分析的影响可从轻微扰动到彻底颠覆估计结果。识别和处理异常值是实证研究的必要步骤,也是数据质量控制的
异常值 (Outlier)
异常值(Outlier),又称离群值或野值,指在数据集中与其他观测值显著偏离、处于数据分布极端位置或与整体模式不一致的个别数据点。在统计学和计量经济学中,异常值的存在可能源于测量误差、数据录入错误、样本异质性或真实的极端事件,其对统计分析的影响可从轻微扰动到彻底颠覆估计结果。识别和处理异常值是实证研究的必要步骤,也是数据质量控制的核心环节。对异常值的态度——剔除、保留还是变换——背后涉及关于数据生成过程的实质性假设和研究者对统计稳健性的判断。
异常值的定义与分类
异常值的定义依赖于某种"正常"基准。在单变量情形下,异常值通常被定义为与样本均值或中位数的距离超过某一阈值的观测;在回归分析中,异常值则表现为与模型预测值之间存在异常大的残差。然而,"异常"本身没有绝对标准——在正态分布下,偏离均值三个标准差以上的观测仅占约 0.27\%,但对于厚尾分布(如金融收益率序列),此类观测可能并非异常,而是分布本身的内在特征。
统计学文献通常将异常值区分为以下几类:
- 加性异常值 (Additive Outlier):仅影响单一观测值的孤立冲击。例如,某次 GDP 统计中因笔误将 5.2\% 录入为 52\%。加性异常值不影响后续观测,一旦识别即可直接修正或剔除。
- 新息异常值 (Innovational Outlier):对误差项的冲击通过数据生成过程的动态结构传播至后续观测。在时间序列分析中,新息异常值的影响随模型动力学持续存在,例如 AR(1) 过程中对当期误差项的冲击将以系数 的几何速率衰减至未来各期。
- 水平漂移 (Level Shift):数据生成过程的均值发生结构性变化,表现为观测值系统性地偏离历史水平,而非个别点的跳跃。这在本质上属于结构性断点而非严格异常值,但在截面分析中可能被误判为多个异常值。
- 暂时性变化 (Temporary Change):介于加性异常值与水平漂移之间的形态——观测值在冲击后并非立即恢复,而是以某种衰减速率逐步回归原始水平。
此外,基于与模型的关系,可区分为垂直异常值(y 方向上的奇异值)和杠杆点(Leverage Point:x 方向上远离自变量均值的观测)。高杠杆点不一定具有大残差,但由于其在最小二乘法中权重较大,可能对回归线产生不成比例的牵引力。
检测方法
异常值检测方法的选择取决于数据维度、模型假设和任务目标。主要方法包括以下几类。
基于排序与分位数的非参数法:最简单且最常用的是箱线图(Box Plot)准则——将超出下四分位数减 1.5 倍 IQR 或上四分位数加 1.5 倍 IQR 的观测标记为疑似异常值。此方法不对分布形式做假设,对偏态分布也有一定适应能力。其局限在于:1.5 倍阈值本身仅是经验惯例(Tukey 原始建议),对高维数据或聚类结构无能为力。
基于标准化距离的参数法:Z-score 计算每个观测与样本均值的标准化距离 ,阈值通常取 2.5 或 3。该方法以正态性为前提,对异常值本身敏感——一个极端异常值会拉偏均值、膨胀标准差,导致其他异常值被"掩蔽"(masking)。修正方案是使用稳健替代量:以中位数取代均值、以中位数绝对离差(MAD)取代标准差,即 。
回归诊断量:在回归分析中,学生化残差(Studentized Residual)将每个残差除以其估计标准误,若某一观测的学生化残差绝对值超过 2 或 2.5(在大样本中),则被视为可能的异常值。更精细的工具包括:
- Cook 距离 (Cook's Distance):综合衡量删除该观测后全部拟合值的变化幅度。经验阈值通常设为 或 。Cook 距离同时捕捉了残差大小和杠杆水平,是识别"有影响力观测"的综合指标。
- DFBETAS 与 DFFITS:前者衡量删除某观测对特定回归系数的影响(以标准误为单位),后者衡量对拟合值的综合影响。这些量有助于定位异常值的具体影响路径。
- 帽子矩阵对角元: 大于 的观测被标记为高杠杆点,其中 为参数数量。
多变量方法:高维数据中,单变量检测可能遗漏仅在联合分布中才显现的异常值。马氏距离(Mahalanobis Distance)将每个观测与多元均值的距离标准化,考虑了变量间的协方差结构。对于高维数据(),经典马氏距离失效,需借助稳健协方差矩阵估计(如最小协方差行列式,MCD)或基于投影追踪的方法。
异常值对计量分析的影响
异常值对估计和推断的影响可从多个层面展开。
首先,在普通最小二乘法(OLS)中,OLS 目标函数为残差平方和最小化,由于平方函数对远离中心的观测施加不成比例的惩罚,OLS 对异常值——尤其是同时具有高杠杆和大残差的观测——极其敏感。单一极端观测即可显著改变回归系数的大小甚至符号,这一现象在样本量较小或异常值严重偏离时尤为突出。实证案例中,20 世纪初关于英格兰死亡率与水质的研究中,一个极端观测值的剔除足以推翻原结论。
其次,异常值的掩蔽效应(Masking)和淹没效应(Swamping)增加了诊断的复杂性。掩蔽指一个异常值的存在隐藏了另一个异常值(例如第一个异常值拉偏估计线,使第二个异常值的残差看起来正常);淹没指正常观测被错误地标记为异常值。两者均源于非稳健估计量对"正常"基准的扭曲。
再次,异常值影响标准误和推断。异常值膨胀残差方差估计,扩大置信区间,降低检验功效。但另一方面,若异常值导致回归系数估计本身严重偏误,则即便标准误增大,所覆盖的也是错误的参数值,置信区间的名义覆盖含义已失实。
在时间序列背景下,异常值会扭曲自相关函数、偏自相关函数的结构,误导模型识别(例如 AR 阶数的选择),并污染单位根检验的推断——异常值可能使平稳序列被误判为单位根过程,或反之。
处理策略
应对异常值的策略并非自动剔除,而应根据异常值的成因和对研究目标的影响来选择。
- 核实与修正:如果异常值源于数据录入或编码错误,应追溯原始资料修正。这是唯一不需要任何统计推敲的确定性处理。数据质量控制规程(如双录入检验)可在此阶段大幅降低异常值发生率。
- 剔除 (Trimming):直接删除被标记为异常值的观测,仅当可确认其由非数据生成过程的外部错误产生时才属正当。盲目剔除会人为缩小方差、高估拟合优度,并可能丢弃数据中最有信息量的部分——那些反映真实极端事件(如金融危机、技术突破)的观测往往恰是最有研究价值的。
- 缩尾 (Winsorization):将超出指定分位数(如 1\% 和 99\%)的连续变量值替换为对应分位数的值,而非删除观测。缩尾保留了样本容量和该观测在其他维度上的信息,是面板数据文献中的常见做法。
- 变量变换:取对数、Box-Cox 变换或 rank-based 变换可压缩极值的相对间距,减轻异常值对估计的干扰。对数变换尤其适用于偏态分布的正值变量(如收入、企业规模),使分布更接近正态并降低极端富裕观测的杠杆。
- 稳健估计方法:从根本上替代对 OLS 的依赖。包括: \begin{itemize}
- 最小绝对离差 (LAD):以残差绝对值之和替代平方和,对垂直异常值具有天然稳健性。
- M 估计 (Huber, Tukey biweight):对残差施加递减权重,大残差的观测权重趋近于零。Huber 损失函数在残差较小时保持平方损失(保留效率),残差较大时切换为线性损失(降低敏感性)。
- 最小截平方和 (LTS):仅拟合覆盖 个观测的子集,使残差平方和最小,自动排除最极端的 个观测。
- 分位数回归 (Quantile Regression):直接建模条件分位数(如中位数),对因变量方向的异常值天然不受干扰。 \end{itemize}
- 指示变量法:在回归中包含异常值哑变量(dummy),通过赋予异常观测自有截距来吸收其影响。这在异常值数量极少且研究者希望保留该观测其余维度信息时是可行的折中。
- 报告敏感性分析:无论采用何种处理,研究者应报告对异常值的不同处理方式(如全样本、剔除后、缩尾后)下核心结论的差异。若结论在合理范围内不变,异常值的威胁可控;若结论因单一或少数观测的存在而逆转,这一脆弱性本身即是需要坦白的研究发现。
异常值在经济学实证中的角色
经济学数据——无论是微观调查、宏观时间序列还是金融高频数据——异常值普遍存在。微观调查中的收入高报或低报、企业财务数据的极端值(如某家初创企业出现 10000\% 的季度增长)、跨国面板中某一国家因战争或灾难导致的极端观测,均构成实证经济学家日常面对的异常值挑战。
实践中形成了若干约定俗成的做法:劳动经济学中连续变量(如工资、工时)常以 1\% 和 99\% 分位数缩尾处理;公司金融中对杠杆率、托宾 Q 等财务比率常实施上下 1\% 的缩尾;宏观预测中则需谨慎区分异常值与结构性断点——前者作为噪音应被排除,后者作为信号应被建模。
异常值的根本张力在于:同样的极端观测,既可以是对研究假设最有力的证据(例如被解释的恰恰是极端事件),也可以是毫无信息价值的错误。区分二者不能仅靠统计算法,终究需要研究者依据领域知识和对数据生成机制的理解来做出判断。这也是为什么计量经济学训练不仅传授检测技术,更强调"了解你的数据"这一无法被自动化的原则——异常值处理的方法论,归根结底是审慎、透明和可重复性的实践。