ARTICLE

离群值

离群值（Outlier）离群值（Outlier），又称异常值，是指在数据集中与其他观测值相比存在显著差异的数据点。从统计学角度看，离群值是远离数据主体、不遵循数据整体分布规律的少数观测。其存在可能是数据质量问题的信号，也可能预示着值得深入研究的特殊现象。在统计分析和机器学习中，正确识别与处理离群值至关重要。离群值的成因理解成因是决定处理策略的第一步。离

浏览 58 更新 2025-10-26

离群值（Outlier）

离群值（Outlier），又称异常值，是指在数据集中与其他观测值相比存在显著差异的数据点。从统计学角度看，离群值是远离数据主体、不遵循数据整体分布规律的少数观测。其存在可能是数据质量问题的信号，也可能预示着值得深入研究的特殊现象。在统计分析和机器学习中，正确识别与处理离群值至关重要。

离群值的成因

理解成因是决定处理策略的第一步。离群值通常源于以下几类原因：

测量误差：数据采集设备故障或环境干扰导致的错误，如温度传感器失灵记录下远超物理可能性的数值。
数据录入错误：人为操作失误，如误置小数点（10.5 误录为 105）、单位混淆或键盘输入错误。
真实极端值：并非错误，而是反映罕见事件。这类离群值往往最具分析价值——金融中的欺诈交易、医学中异常的药物反应，都可能揭示新的机制。

识别方法

可视化方法

箱形图：基于四分位数的常用工具。四分位数范围定义为 $IQR = Q_3 - Q_1$ ，位于 $Q_1 - 1.5 \times \text{IQR}$ 以下或 $Q_3 + 1.5 \times \text{IQR}$ 以上的点标记为离群值。
散点图：在分析两个变量关系时，离群值表现为远离主体密集区域的孤立点，在回归分析中可能成为强影响点。
直方图：离群值表现为与主分布区域分隔的孤立条形。

定量方法

Z 分数法：假设数据大致服从正态分布。 $Z = (x - \mu)/\sigma$ ， $|Z| > 3$ 视为离群值——正态分布下约 99.7\% 的数据落在均值 $\pm 3\sigma$ 范围内。
IQR 方法：不依赖分布假设，更具稳健性。 $k = 1.5$ 识别温和离群值， $k = 3$ 识别极端离群值。
基于密度的方法：如 DBSCAN 和 LOF（Local Outlier Factor），通过评估数据点周围密度识别离群值。
孤立森林：基于树的集成算法，离群值因"稀有且不同"在树结构中路径更短，更易被孤立。

处理策略

修正：确认由录入或测量错误造成且可追溯正确值时予以修正。
删除：确认为无效数据且无法修正时可删除，但需警惕引入偏误。
数据转换：对偏态分布做对数转换或平方根转换，减弱极端值影响。
使用稳健方法：以中位数替代均值描述集中趋势，或采用稳健回归降低强影响点权重。

结语：上下文的重要性

处理离群值没有黄金法则，最佳策略高度依赖数据背景、分析目标与领域知识。分析师需回答的核心问题是："这个离群值代表了什么？"——是需清理的错误，还是揭示重要信息的信号？金融领域的离群值可能指向欺诈，制造业中可能指示生产线缺陷，科学研究中则可能是突破性发现的起点。离群值的处理应是统计技术与批判性思维相结合的分析过程。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。