ARTICLE
outliers
离群值 (Outliers) 离群值(Outliers),也称异常值或极端值,是指在数据集中与其他观测值存在显著差异的个别数据点。这些观测值偏离数据的主体分布模式,表现为数值异常大、异常小,或与变量间的整体关系格局不一致。在描述统计和推断统计学中,离群值的识别和处理是数据预处理阶段的关键步骤,因为离群值可能对均值、方差、相关系数等统计量以及回归分析等模型估计
离群值 (Outliers)
离群值(Outliers),也称异常值或极端值,是指在数据集中与其他观测值存在显著差异的个别数据点。这些观测值偏离数据的主体分布模式,表现为数值异常大、异常小,或与变量间的整体关系格局不一致。在描述统计和推断统计学中,离群值的识别和处理是数据预处理阶段的关键步骤,因为离群值可能对均值、方差、相关系数等统计量以及回归分析等模型估计产生不成比例的影响。
离群值本身并非一定是"错误"——它有时候是数据记录或测量过程中的失误,但有时恰恰反映了真实存在的、具有重要研究价值的罕见现象。这一区分构成了离群值分析的出发点。
离群值的来源与分类
离群值的产生原因大致可归为三类:
- 数据误差:包括数据录入错误(如小数点错位、数字颠倒)、测量仪器故障、数据传输损坏等。这类离群值属于纯粹的噪音,应予以纠正或剔除。例如,一项居民收入调查中,某个样本的年收入被误录为 5,000,000 而非实际 50,000——这就是典型的录入型离群值。
- 自然变异:在真实世界中,极端但属实的观测值并不罕见。金融市场的波动率聚集和偶发的极端收益率("黑天鹅"事件)、气候数据中的百年一遇极端天气、医学研究中具有罕见基因突变的个体——这些都是数据生成过程本身的极端表现,而非人为差错。剔除这类离群值可能导致低估风险、遗漏重要信息。
- 结构变化:当数据生成机制发生根本变化时,旧机制下的"正常"值在新机制下可能成为离群点。例如,时间序列分析中因政策冲击或技术革命引发的结构性断点(Structural Break),以及面板数据中个体行为发生永久性改变的观测。
单变量离群值检测方法
对于单个变量的离群值检测,主流方法基于数据的位置-尺度描述。
Z-score 法(标准差法):计算每个观测值的标准分数 ,其中为样本均值、为标准差。在数据近似正态分布的假设下, 的观测值通常被标记为离群值(约 0.27\% 的概率)。该方法简单直观,但均值和标准差本身对离群值敏感,在存在多个离群值时可能失效(掩蔽效应,Masking Effect)。为此,通常改用稳健的替代方案:以中位数 替换均值,以中位数绝对离差(MAD, Median Absolute Deviation)替换标准差,计算修正的 Z-score:
当 时判定为离群值。
IQR 法(四分位距法):利用数据的四分位数构建区间。设 为第 25 百分位数、 为第 75 百分位数,则 。Tukey 提出的判别区间为:
落在该区间之外的观测值被视为离群值(outlier),落在 之外的则被称为极端离群值(Far Out)。IQR 法不依赖分布假设,对偏态数据也具有良好的稳健性,是箱线图(Box Plot)的理论基础。
百分位数法:直接设定极端百分位阈值——例如,将低于第 1 百分位数或高于第 99 百分位数的观测视为离群值。该方法直观但阈值设定本身具有随意性。
多变量与基于模型的离群值检测
单变量方法只能检测在各个变量维度上分别极端的离群值,但无法捕捉在联合分布中异常的观测——这些点每个单独维度都不极端,但其变量组合却偏离了正常的相关关系。
马氏距离(Mahalanobis Distance):对一个 维观测向量 ,其马氏距离定义为:
其中为均值向量、为协方差矩阵。马氏距离考虑了变量间的相关性和尺度差异,在多元正态假设下, 近似服从卡方分布 ,可据此设定显著性阈值。若协方差矩阵受离群值污染而失真,则可使用最小协方差行列式(MCD, Minimum Covariance Determinant)等稳健估计替代。
回归诊断中的离群值:在线性回归框架下,离群值的概念被细化为三种形态。响应离群值(Response Outlier)是在给定自变量的条件下,因变量的观测值异常偏离回归线,对应残差极大者;可通过学生化残差(Studentized Residual)检验——若某观测的学生化删除残差的绝对值超过阈值(如 ),则可判定为离群点。杠杆点(Leverage Point)指自变量取值极端、远离自变量均值的观测,其帽子矩阵对角元 超过 时需要关注。影响点(Influential Point)是那些无论保留还是剔除都会实质性改变模型拟合结果的观测,通常用Cook距离(Cook's Distance)衡量——若 或 ,则该点对模型有显著影响。
基于聚类的检测:如DBSCAN算法将低密度区域的点识别为噪声/离群值;孤立森林(Isolation Forest)利用离群值"少且不同"的特性,通过随机划分快速将其隔离。
离群值的处理策略
识别出离群值后,处理方式取决于其来源和分析目标:
- 保留:确认离群值反映真实现象且与研究问题相关时,应予以保留。例如分析收入分布时,极高收入者恰是研究收入不平等的核心关注对象。
- 修正:对于可核实的录入错误,以正确值替换;对于缺失值导致的离群假象,通过插补方法处理。
- Winsorize(缩尾):将极端值拉回到预设百分位阈值(如第 1 和第 99 百分位),而非直接剔除。这在金融研究中处理极端收益率时尤其常见。
- 剔除(Trimming):当离群值确属误差且无法修正,或所占比例极小时,可予以删除。需在报告中明确披露剔除标准和剔除数量。
- 稳健方法:使用对离群值不敏感的统计方法。例如,以中位数替代均值、以分位数回归(Quantile Regression)替代 OLS、以Spearman秩相关系数替代 Pearson 相关系数。
- 变换:对变量进行对数变换、平方根变换或Box-Cox变换,压缩数据的尺度、减小极端值的相对距离,使分布更接近对称。
在经济与金融中的应用
在金融计量学中,资产收益率序列常呈现厚尾(Fat Tails)特征——极端收益率的发生频率远超正态分布预期。忽视离群值可能导致对在险价值(VaR)和预期亏空(Expected Shortfall)的低估,引发灾难性的风险管理后果。在经济增长的跨国回归分析中,少数资源禀赋或制度环境极端特殊的国家可能成为影响点,驱动甚至逆转回归系数的符号——这正是实证研究中必须审慎进行敏感性分析的原因。此外,在微观计量的家庭调查数据中,消费或收入的极端报告若不加处理,将严重扭曲基尼系数等不平等指标的估计。
离群值分析的核心原则可以概括为:永远不要盲目删除离群值。每一个被标记的离群点都需要结合领域知识逐一审视——它可能是通往新发现的窗口,也可能是需要清理的污渍,判断的关键在于数据背后的生成故事,而非统计量本身。