ARTICLE

outliers

离群值 (Outliers) 离群值(Outliers),也称异常值或极端值,是指在数据集中与其他观测值存在显著差异的个别数据点。这些观测值偏离数据的主体分布模式,表现为数值异常大、异常小,或与变量间的整体关系格局不一致。在描述统计和推断统计学中,离群值的识别和处理是数据预处理阶段的关键步骤,因为离群值可能对均值、方差、相关系数等统计量以及回归分析等模型估计

浏览 5 更新 2025-10-26

离群值 (Outliers)

离群值(Outliers),也称异常值或极端值,是指在数据集中与其他观测值存在显著差异的个别数据点。这些观测值偏离数据的主体分布模式,表现为数值异常大、异常小,或与变量间的整体关系格局不一致。在描述统计推断统计学中,离群值的识别和处理是数据预处理阶段的关键步骤,因为离群值可能对均值方差相关系数等统计量以及回归分析等模型估计产生不成比例的影响。

离群值本身并非一定是"错误"——它有时候是数据记录或测量过程中的失误,但有时恰恰反映了真实存在的、具有重要研究价值的罕见现象。这一区分构成了离群值分析的出发点。

离群值的来源与分类

离群值的产生原因大致可归为三类:

  1. 数据误差:包括数据录入错误(如小数点错位、数字颠倒)、测量仪器故障、数据传输损坏等。这类离群值属于纯粹的噪音,应予以纠正或剔除。例如,一项居民收入调查中,某个样本的年收入被误录为 5,000,000 而非实际 50,000——这就是典型的录入型离群值。
  2. 自然变异:在真实世界中,极端但属实的观测值并不罕见。金融市场的波动率聚集和偶发的极端收益率("黑天鹅"事件)、气候数据中的百年一遇极端天气、医学研究中具有罕见基因突变的个体——这些都是数据生成过程本身的极端表现,而非人为差错。剔除这类离群值可能导致低估风险、遗漏重要信息。
  3. 结构变化:当数据生成机制发生根本变化时,旧机制下的"正常"值在新机制下可能成为离群点。例如,时间序列分析中因政策冲击或技术革命引发的结构性断点(Structural Break),以及面板数据中个体行为发生永久性改变的观测。

单变量离群值检测方法

对于单个变量的离群值检测,主流方法基于数据的位置-尺度描述。

Z-score 法(标准差法):计算每个观测值的标准分数 zi=(xixˉ)/sz_i = (x_i - \bar{x}) / s,其中xˉ\bar{x}为样本均值、ss为标准差。在数据近似正态分布的假设下,zi>3|z_i| > 3 的观测值通常被标记为离群值(约 0.27\% 的概率)。该方法简单直观,但均值和标准差本身对离群值敏感,在存在多个离群值时可能失效(掩蔽效应,Masking Effect)。为此,通常改用稳健的替代方案:以中位数 mm 替换均值,以中位数绝对离差(MAD, Median Absolute Deviation)替换标准差,计算修正的 Z-score:

zirobust=0.6745(xim)MAD,MAD=median(xim)z_i^{\text{robust}} = \frac{0.6745 \cdot (x_i - m)}{\text{MAD}}, \quad \text{MAD} = \text{median}(|x_i - m|)

zirobust>3.5|z_i^{\text{robust}}| > 3.5 时判定为离群值。

IQR 法(四分位距法):利用数据的四分位数构建区间。设 Q1Q_1 为第 25 百分位数、Q3Q_3 为第 75 百分位数,则 IQR=Q3Q1\text{IQR} = Q_3 - Q_1。Tukey 提出的判别区间为:

[Q11.5×IQR,  Q3+1.5×IQR][Q_1 - 1.5 \times \text{IQR},\; Q_3 + 1.5 \times \text{IQR}]

落在该区间之外的观测值被视为离群值(outlier),落在 [Q13IQR,  Q3+3IQR][Q_1 - 3\text{IQR},\; Q_3 + 3\text{IQR}] 之外的则被称为极端离群值(Far Out)。IQR 法不依赖分布假设,对偏态数据也具有良好的稳健性,是箱线图(Box Plot)的理论基础。

百分位数法:直接设定极端百分位阈值——例如,将低于第 1 百分位数或高于第 99 百分位数的观测视为离群值。该方法直观但阈值设定本身具有随意性。

多变量与基于模型的离群值检测

单变量方法只能检测在各个变量维度上分别极端的离群值,但无法捕捉在联合分布中异常的观测——这些点每个单独维度都不极端,但其变量组合却偏离了正常的相关关系

马氏距离(Mahalanobis Distance):对一个 pp 维观测向量 xi\mathbf{x}_i,其马氏距离定义为:

DM(xi)=(xiμ)TΣ1(xiμ)D_M(\mathbf{x}_i) = \sqrt{(\mathbf{x}_i - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x}_i - \boldsymbol{\mu})}

其中μ\boldsymbol{\mu}为均值向量、Σ\mathbf{\Sigma}为协方差矩阵。马氏距离考虑了变量间的相关性和尺度差异,在多元正态假设下,DM2D_M^2 近似服从卡方分布 χ2(p)\chi^2(p),可据此设定显著性阈值。若协方差矩阵受离群值污染而失真,则可使用最小协方差行列式(MCD, Minimum Covariance Determinant)等稳健估计替代。

回归诊断中的离群值:在线性回归框架下,离群值的概念被细化为三种形态。响应离群值(Response Outlier)是在给定自变量的条件下,因变量的观测值异常偏离回归线,对应残差极大者;可通过学生化残差(Studentized Residual)检验——若某观测的学生化删除残差的绝对值超过阈值(如 t(np1),α/2t_{(n-p-1),\alpha/2}),则可判定为离群点。杠杆点(Leverage Point)指自变量取值极端、远离自变量均值的观测,其帽子矩阵对角元 hiih_{ii} 超过 2p/n2p/n 时需要关注。影响点(Influential Point)是那些无论保留还是剔除都会实质性改变模型拟合结果的观测,通常用Cook距离(Cook's Distance)衡量——若 Di>4/nD_i > 4/nDi>1D_i > 1,则该点对模型有显著影响。

基于聚类的检测:如DBSCAN算法将低密度区域的点识别为噪声/离群值;孤立森林(Isolation Forest)利用离群值"少且不同"的特性,通过随机划分快速将其隔离。

离群值的处理策略

识别出离群值后,处理方式取决于其来源和分析目标:

  • 保留:确认离群值反映真实现象且与研究问题相关时,应予以保留。例如分析收入分布时,极高收入者恰是研究收入不平等的核心关注对象。
  • 修正:对于可核实的录入错误,以正确值替换;对于缺失值导致的离群假象,通过插补方法处理。
  • Winsorize(缩尾):将极端值拉回到预设百分位阈值(如第 1 和第 99 百分位),而非直接剔除。这在金融研究中处理极端收益率时尤其常见。
  • 剔除(Trimming):当离群值确属误差且无法修正,或所占比例极小时,可予以删除。需在报告中明确披露剔除标准和剔除数量。
  • 稳健方法:使用对离群值不敏感的统计方法。例如,以中位数替代均值、以分位数回归(Quantile Regression)替代 OLS、以Spearman秩相关系数替代 Pearson 相关系数。
  • 变换:对变量进行对数变换、平方根变换或Box-Cox变换,压缩数据的尺度、减小极端值的相对距离,使分布更接近对称。

在经济与金融中的应用

金融计量学中,资产收益率序列常呈现厚尾(Fat Tails)特征——极端收益率的发生频率远超正态分布预期。忽视离群值可能导致对在险价值(VaR)和预期亏空(Expected Shortfall)的低估,引发灾难性的风险管理后果。在经济增长的跨国回归分析中,少数资源禀赋或制度环境极端特殊的国家可能成为影响点,驱动甚至逆转回归系数的符号——这正是实证研究中必须审慎进行敏感性分析的原因。此外,在微观计量的家庭调查数据中,消费或收入的极端报告若不加处理,将严重扭曲基尼系数等不平等指标的估计。

离群值分析的核心原则可以概括为:永远不要盲目删除离群值。每一个被标记的离群点都需要结合领域知识逐一审视——它可能是通往新发现的窗口,也可能是需要清理的污渍,判断的关键在于数据背后的生成故事,而非统计量本身。