ARTICLE

Outlier

异常值(Outlier)是指在一个数据集中显著偏离其他观测值的极端数据点,其数值远大于或远小于样本中绝大多数观测值所处的正常范围。异常值在统计分析、计量经济学建模和机器学习应用中具有特殊的重要性:它们可能反映数据录入错误、测量仪器故障或实验条件的意外变化,也可能揭示出数据生成过程中存在的结构性突变、稀有事件或尚未被识别的科学规律。因此,异常值的检测、诊断与处

浏览 0 更新 2025-11-08

异常值(Outlier)是指在一个数据集中显著偏离其他观测值的极端数据点,其数值远大于或远小于样本中绝大多数观测值所处的正常范围。异常值在统计分析、计量经济学建模和机器学习应用中具有特殊的重要性:它们可能反映数据录入错误、测量仪器故障或实验条件的意外变化,也可能揭示出数据生成过程中存在的结构性突变、稀有事件或尚未被识别的科学规律。因此,异常值的检测、诊断与处理是数据预处理和稳健统计推断的核心环节。

1. 异常值的来源与分类

1.1 数据来源的分类

异常值按来源可划分为三类:随机异常值(Random Outlier)源于数据的自然变异性——即便在完全正确且同质的生成过程中,极端值也有一定的概率出现,尤其是在厚尾分布中;错误异常值(Error Outlier)由人为或系统错误引入,包括录入错误(小数点错位、单位换算错误)、测量误差(仪器灵敏度不足或校准偏差)以及样本污染(样本中混入了非同质总体的观测值);结构性异常值(Structural Outlier)则反映了数据生成过程的真实变化,如金融危机期间的极端收益率、疫情前后的消费结构突变或制度变迁导致的宏观经济指标骤变。区分这三类来源对后续处理策略的选择至关重要。

1.2 单变量与多变量异常值

单变量(Univariate)情境下,异常值表现为某一变量上的极端取值;而在多变量(Multivariate)情境下,异常值可能在各维度的边际分布上并不极端,却因变量之间协方差结构的偏离而成为异常。例如,在一个研究收入与消费的数据集中,某个观测值的收入与消费分别处于正常范围,但其收入-消费比率远偏离总体趋势线,该点即构成多变量异常值。这一区别意味着仅依靠单一变量的箱形图或z分数往往无法识别多变量异常值,需要借助马氏距离(Mahalanobis Distance)或基于回归的诊断方法。

2. 异常值的检测方法

2.1 基于统计的方法

最经典的异常值检测方法依赖于对数据分布的假设。z分数法(Standard Score Method)假设数据服从正态分布,将绝对值大于3(即距离均值超过3个标准差)的观测值标记为潜在的异常值;在此标准下,正态分布中约0.3\%的观测值会被识别为异常。改进的z分数法(Modified Z-Score)使用中位数和绝对中位差(MAD)替代均值与标准差,对异常值的抗干扰能力更强。在偏态分布中,Tukey的箱形图法(Boxplot Method)将低于Q1−1.5×IQR或高于Q3+1.5×IQR的点定义为异常值,将低于Q1−3×IQR或高于Q3+3×IQR的点定义为极端异常值。Grubbs检验(Grubbs' Test)则是一种假设检验方法,适用于检测正态分布样本中的单个最大异常值,但存在掩蔽效应(Masking Effect)问题——当数据中存在多个异常值时,一个异常值的存在可能会掩盖另一个异常值的检测。

2.2 基于距离与密度的方法

马氏距离(Mahalanobis Distance)通过考虑变量间的协方差结构来识别多变量异常值,特别适用于线性相关结构较为稳定的数据场景。局部异常因子(Local Outlier Factor, LOF)是一种基于密度的算法,通过比较某点邻域密度与其周围点的邻域密度来识别异常——若某点的局部密度显著低于其邻居,则LOF值远大于1,表明该点为局部异常值。这种方法在数据分布不均匀或存在多个密度簇时表现优异,但其性能高度依赖于邻域参数k的选择。

2.3 基于机器学习的方法

在无监督学习框架下,孤立森林(Isolation Forest)通过随机切割特征空间来孤立观测值:异常值因数值极端而更容易被早期孤立,因此从根节点到叶子节点的路径长度较短。一类支持向量机(One-Class SVM)则在高维特征空间中寻找一个分离超平面,将大部分数据点包裹在决策边界内部,而将偏离正常模式的点排斥在外。在监督学习框架中,若训练数据包含已标注的正常与异常样本,则可以使用分类模型(如随机森林或梯度提升树)来进行异常值的判别预测。近年来,基于自编码器的深度异常检测方法在图像、文本和时序数据的异常值识别中展现了显著优势。

3. 异常值的处理方法

3.1 删除与修正

若异常值被确认来源于测量或录入错误且占比极小(通常不超过5\%),可直接将其从数据集中删除。这种做法操作简便,但在小样本中可能显著降低统计功效,且若异常值的删除带有某种系统性模式,会引入选择性偏误。对于显然存在记录错误的异常值(如年龄登记为200岁、负收入),研究者可以在确认正确值后进行修正(Correction),而非简单删除。

3.2 缩尾与截尾处理

缩尾处理(Winsorization)将异常值替换为某一分位数处的阈值(如将超出99\%分位数的值替换为99\%分位数处的值),从而在不减少样本量的前提下削弱极端值的影响。截尾处理(Trimming)则直接删除超出阈值的所有观测值。两种方法的选择取决于研究目的:缩尾保留了样本量但引入了人为赋值,截尾避免了数据篡改但可能需要处理样本量减少的问题。在实证经济学中,通常对连续变量在1\%和99\%分位数处进行缩尾处理。

3.3 稳健估计方法

一种更为理论化的策略是采用对异常值不敏感的稳健统计方法(Robust Statistics)。例如,用中位数替代均值作为集中趋势的度量,用MAD替代标准差作为离散程度的度量;在回归分析中使用分位数回归(Quantile Regression)或M估计(M-Estimation)替代普通最小二乘法,以降低异常值对回归系数估计的影响。这类方法的核心思想是不首先识别异常值,而是直接从算法层面削弱极端观测值对统计推断的影响力。

4. 异常值在经济计学中的特殊意义

在经济学和金融学的时间序列分析中,异常值往往承载着重要的经济信息。2008年全球金融危机期间雷曼兄弟倒闭前后的市场收益率数据、2020年新冠疫情冲击下的季度GDP增长率、以及各国央行超预期的利率调整公告日前后产生的数据点,均属于结构性异常值。对此类异常值的机械式删除将导致研究者错失对经济机制深层理解的关键窗口。因此,经济计学文献中发展出了介入分析(Intervention Analysis)和结构断点检验(Structural Break Test)等专门方法,将异常值从"噪声"重新定位为"信号"。

此外,异常值在经济学中的存在还具有稳健性检验的方法论价值。在计量经济学实证研究中,研究者被普遍要求展示剔除异常值前后的回归结果变化情况。若某个核心结论的统计显著性完全取决于极少数异常观测值的存在,则该结论的稳健性值得高度怀疑。这种做法已成为顶级经济学期刊的发表规范。

5. 参考文献

  • Tukey, J. W. (1977). *Exploratory Data Analysis*. Addison-Wesley.
  • Grubbs, F. E. (1969). Procedures for detecting outlying observations in samples. *Technometrics*, 11(1), 1–21.
  • Breunig, M. M., Kriegel, H.-P., Ng, R. T., \& Sander, J. (2000). LOF: Identifying density-based local outliers. *ACM SIGMOD Record*, 29(2), 93–104.
  • Liu, F. T., Ting, K. M., \& Zhou, Z.-H. (2008). Isolation forest. *2008 Eighth IEEE International Conference on Data Mining*, 413–422.
  • Rousseeuw, P. J., \& Leroy, A. M. (1987). *Robust Regression and Outlier Detection*. Wiley.
  • Huber, P. J., \& Ronchetti, E. M. (2009). *Robust Statistics* (2nd ed.). Wiley.