ARTICLE

异常值

异常值(Outlier),又称离群值,是指在数据集中与其他观测值存在显著差异的数据点。从统计角度看,异常值远离数据的中心趋势,可能来自一个不同的数据生成机制。在数据科学、统计学、机器学习及各类实证研究中,异常值的检测与处理是数据预处理的核心环节之一。正确识别和处理异常值不仅能提高模型精度,还能揭示数据中隐藏的重要信息,避免因数据污染导致的偏误结论。 1 异常

浏览 117 更新 2025-10-26

异常值(Outlier),又称离群值,是指在数据集中与其他观测值存在显著差异的数据点。从统计角度看,异常值远离数据的中心趋势,可能来自一个不同的数据生成机制。在数据科学、统计学、机器学习及各类实证研究中,异常值的检测与处理是数据预处理的核心环节之一。正确识别和处理异常值不仅能提高模型精度,还能揭示数据中隐藏的重要信息,避免因数据污染导致的偏误结论。

1 异常值的定义

异常值缺乏统一的严格数学定义,但存在若干操作化的判别标准。在单变量情形下,最常用的标准有两类。

四分位距法将低于第一四分位数(Q₁)下界 Q₁−1.5×IQR 或高于第三四分位数(Q₃)上界 Q₃+1.5×IQR 的观测标记为异常值,其中 IQR=Q₃−Q₁。该方法的优势在于不依赖分布假设,具有较好的稳健性。

Z分数法假设数据近似服从正态分布,将标准化后绝对值超过某一阈值(通常为3)的观测视为异常值。对于正态分布,约99.7\%的数据落在均值±3个标准差的范围内,因此超出该范围的观测被视为异常。但均值和标准差本身对异常值敏感,导致该方法在异常值较多时效果不佳。

2 异常值的成因

异常值的出现源于多种原因,准确判断其成因是决定处理策略的前提。

数据录入与测量误差。此类异常值最为常见。人为错误如小数点错位、单位混淆(如将厘米录为米)、问卷编码误用等均会引入异常值。仪器故障如传感器噪声、测量设备失灵等也会产生不准确的读数。这类异常值通常可通过逻辑校验和范围检查来识别和修正。

自然变异的真实极端值。许多现实世界的数据生成过程具有厚尾特征,使得极端值不仅是可能的,而且是可预期的。金融收益率序列中的极端波动、收入分布中的超高收入群体、气象记录中的百年一遇降水量等均属此类。这类异常值往往蕴含着最有价值的信息,反映罕见但真实的事件。

结构性变化。当数据生成过程发生制度变迁、政策调整或技术变革时,部分观测可能表现为异常。例如,2008年全球金融危机前后金融时间序列的结构性断裂就是典型的例子。区分结构性异常与纯随机变异对于正确建模至关重要。

3 异常值的检测方法

3.1 单变量检测方法

箱线图是最直观的可视化工具,通过箱体、须线和异常点标示快速呈现数据分布特征。Grubbs检验是经典的假设检验方法,用于检测单变量正态分布中是否存在一个异常值。其原假设为数据中无异常值,备择假设为存在一个异常值。当数据中存在多个异常值时,该检验的功效会显著下降。

3.2 多变量检测方法

在多变量情形下,一个观测点可能在每个单变量维度上都不突出,却因其变量组合的异常而成为离群点。马氏距离是检测多变量异常值的经典指标,它通过协方差矩阵考虑变量间的相关性,能够识别在联合分布空间中偏离中心的观测点。局部异常因子基于局部密度估计,适用于识别密度分布不均匀的数据中的异常点——一个点即使在绝对值上不大,但如果它位于低密度区域,也可能被标记为异常。

3.3 基于机器学习的方法

孤立森林通过随机分割特征空间来识别异常值。其核心思想是:异常点相对于正常点更容易被孤立,因此从根节点到叶节点的路径长度更短。一类支持向量机将数据映射到高维特征空间,寻找能够将正常数据点与原点分离的最优超平面。这些方法在高维数据和大规模数据集上表现优异,在欺诈检测和网络入侵检测等应用中广泛部署。

4 异常值的处理策略

删除法。若异常值被确认为测量或录入错误且数量极少,直接删除是最简单的处理方式。但删除真实异常值会导致信息损失,甚至引入选择偏误,需谨慎使用。

截尾法(Winsorization)。将极端值替换为设定的分位数阈值,如将低于1\%分位数的值替换为第1\%分位数,将高于99\%分位数的值替换为第99\%分位数。该方法保留了样本量,削弱了极端值对均值和标准差的影响,在金融和收入数据分析中应用广泛。

插补法。对于判定为缺失的异常值,可采用均值插补、中位数插补或多重插补等方法。多重插补通过生成多个插补数据集来反映插补模型的不确定性,比单一插补方法更优。

稳健方法。使用对异常值不敏感的统计方法是从根本上规避其影响的最佳途径。中位数替代均值、分位数回归替代普通最小二乘法、秩相关替代皮尔逊相关系数、M估计替代最小二乘估计等稳健方法能有效降低异常值对分析结论的扭曲。

5 异常值研究与极值理论

异常值的系统研究催生了极值理论的建立与发展。Fisher–Tippett–Gnedenko定理是极值理论的基石:无论原始分布为何种形式,经过标准化后的样本极大值在极限分布下收敛于Gumbel、Fréchet或Weibull三类极值分布之一。这一理论在金融风险管理中的VaR和ES计算、保险精算中的巨灾损失建模、气候科学中的极端事件重现期估计和工程可靠性分析中发挥着不可替代的作用。

总结

异常值是数据分析中不可回避的现象。它可能是数据质量的瑕疵,也可能是揭示深层规律的信号。有效的异常值处理不仅依赖可靠的检测工具,更需要分析者对数据生成过程有深入理解——是自然变异、测量误差还是结构性变化?不同的成因需要不同的应对策略。从稳健方法到极值理论,现代数据科学为异常值的识别、处理与利用提供了完整的工具路径。对分析者而言,判断异常值是"噪音"还是"信号",往往是区分机械应用统计程序与真正理解数据逻辑的分水岭。