ARTICLE
四分位数极差
四分位数极差 (Interquartile Range, IQR) 四分位数极差(Interquartile Range,简称 IQR),又称四分位距,是统计学中度量数据离散程度的一种稳健性指标。它定义为第三四分位数(Q_3)与第一四分位数(Q_1)之间的差值,即: 与极差(最大值减最小值)和标准差不同,IQR 关注的是数据中间 50\% 的分布范围,因而天
四分位数极差 (Interquartile Range, IQR)
四分位数极差(Interquartile Range,简称 IQR),又称四分位距,是统计学中度量数据离散程度的一种稳健性指标。它定义为第三四分位数()与第一四分位数()之间的差值,即:
与极差(最大值减最小值)和标准差不同,IQR 关注的是数据中间 50\% 的分布范围,因而天然地不受异常值的影响,是描述偏态分布或存在离群点数据的离散程度时的首选指标。
四分位数的计算
理解 IQR 的前提是掌握四分位数的计算方法。给定一组已排序的数据 :
- 第一四分位数(,又称下四分位数、第 25 百分位数):将数据中最小的 25\% 与最大的 75\% 分开的值。多种计算方法并存,最常见的是:取中位数位置左侧数据的中位数。
- 第二四分位数(,即中位数,第 50 百分位数):将数据等分为两半的值。
- 第三四分位数(,又称上四分位数、第 75 百分位数):将数据中最小的 75\% 与最大的 25\% 分开的值。取中位数位置右侧数据的中位数。
计算四分位数的具体方法存在多种惯例(如 Tukey 方法、Moore \& McCabe 方法、Mendenhall \& Sincich 方法等),在实际应用中,不同软件(如 Excel、R、Python 的 NumPy)可能采用略有差异的算法,导致 和 的数值存在微小差别。但无论如何, 足够大时这些差异可以忽略不计。
IQR 作为离散度量
在所有的离散度量中,IQR 占据着独特的位置。以下是比较分析:
- 极差(Range = ):计算最为简单,但仅取决于两个最极端的值,一个异常值即可使其完全失效。例如,数据集 的极差为 95,而 IQR 约为 3,显然后者更真实地反映了数据的集中程度。
- 标准差()与方差():基于均值计算,综合了所有数据点,信息利用率最高,但同样容易受极端值影响,且在偏态分布中解释性较差。
- IQR:仅依赖 和 ,直接忽略数据两端各 25\% 的极端部分,是一种天然的抗异常值度量。这一性质在稳健统计中至关重要。
异常值检测:1.5 IQR 规则
IQR 最重要的应用之一是用作异常值检测的标准。由统计学家约翰·图基(John Tukey)提出的 1.5 IQR 规则至今仍是探索性数据分析中最常用的离群值识别方法:
- 下围栏(Lower Fence):
- 上围栏(Upper Fence):
任何落在下围栏以下或上围栏以上的数据点,被标记为疑似异常值。若将系数从 1.5 放宽到 3.0,则标记为极端异常值(Far Outliers)。
该规则的理论依据在于:若数据近似服从正态分布,则 ,,,从而 约对应 ,包含了约 99.3\% 的正态数据。换言之,从正态总体中仅约 0.7\% 的观测值会因 1.5 IQR 规则被标记——这既是该规则的严格性,也说明了它的保守性。
箱线图中的 IQR
IQR 是箱线图(Box Plot)的核心构成要素。在一个标准箱线图中:
- 箱体从 延伸到 ,箱体的高度即为 IQR。
- 箱体内部的横线标记中位数()。
- 须线(Whiskers)从箱体两端分别延伸至围栏内的最小值和最大值。
- 围栏之外的点以独立标记(通常为圆点或星号)单独绘制。
箱线图通过 IQR 将数据的中心趋势、离散程度、偏态方向和异常值同时可视化,是探索性数据分析中最简洁有力的工具之一。看两个箱体的 IQR 大小,即可快速比较两组数据的离散程度差异。
半四分位数极差
有时研究者会用到半四分位数极差(Semi-Interquartile Range,简称 SIQR):
SIQR 可视为中位数的一种"标准差等价物"——在正态分布中,均值 标准差覆盖约 68\% 的数据,而中位数 SIQR 覆盖中间 50\%。SIQR 在概念上类似于围绕中位数的平均绝对偏差,但其计算更为便捷。在报告严重偏态数据的离散程度时,使用"中位数 SIQR"是一种常见且得体的做法。
与中位数绝对偏差的比较
另一个常用的稳健离散度量是中位数绝对偏差(Median Absolute Deviation,MAD):
IQR 和 MAD 各有优劣:
- 崩溃点(Breakdown Point):MAD 的崩溃点为 50\%(最多可容忍一半数据被污染而不至完全失效),IQR 的崩溃点为 25\%(因 或 若被极端值占据则 IQR 可能失真)。就此而言,MAD 更稳健。
- 计算便利性:IQR 只需两个分位数,手算即可完成;MAD 需两次求中位数,稍显繁琐。
- 可解释性:IQR 直观地表示"中间一半数据的跨度",对非统计背景的读者非常友好;MAD 需乘以缩放因子(约 1.4826)才能在正态下与标准差对齐,解释门槛更高。
经济学与社会科学中的应用
在收入分配研究中,IQR 及相关度量是报告不平等程度的常用指标。一个典型做法是计算收入的 比率(有时称为四分位比),反映高收入群体与低收入群体的收入倍数。此外,各国统计机构常报告家庭可支配收入的五分位数、十分位数和九十分位数与十分位数之比(P90/P10),这些指标本质上与 IQR 一脉相承,均利用分位数而非均值来规避极值污染。
在劳动经济学中,工资分布的 IQR 是衡量工资离散程度和技能溢价的常用指标。在金融学中,资产收益率的 IQR 可用于比较不同投资策略的收益波动性,尤其在收益率分布呈现厚尾特征时比标准差更可靠。在发展经济学中,当研究人员进行随机对照试验时,报告结局变量的 IQR 可以为读者提供关于处理效应分布的有用信息,补充仅报告均值差异的局限。
注意事项与常见误区
尽管 IQR 简单实用,在使用时仍需注意以下几点:
- 信息损失:IQR 仅反映中间 50\% 数据的分布,完全不携带尾部信息。对于厚尾分布(如帕累托分布、柯西分布),仅报告 IQR 可能严重低估极端风险的严重程度。
- 与标准差不具可比性:切勿将 IQR 的数值直接与标准差进行比较并据此得出"数据更分散/更集中"的结论——两者的度量基准和分布假设均不同。
- 小样本问题:当样本量很小(如 )时,四分位数的定义变得模糊,IQR 的波动性很大,应谨慎解读。
- 多峰分布:在双峰或多峰分布中,IQR 可能掩盖分布的真实结构,因为中间 50\% 的数据可能来自两个不同子总体的混合。
小结
四分位数极差(IQR)是统计学中最基本也最实用的稳健离散度量之一。它以极简的定义()实现了对异常值的天然免疫,通过箱线图与 1.5 IQR 规则为探索性数据分析提供了可视化与离群值检测的双重功能。在与标准差、MAD 等指标的配合使用中,IQR 帮助研究者从不同角度刻画数据的分布特征——标准差回答"数据围绕均值的平均波动",IQR 回答"中间一半数据跨了多远"。这两者互补而非互斥,是统计工具箱中各自不可替代的存在。