知经 KNOWECON · 卓越的经济金融统计数学学习平台

四分位距

# 四分位距 (Interquartile Range)

四分位距 (Interquartile Range, IQR) 是{{{描述统计学}}}中一个重要的{{{离散程度}}}度量指标。它衡量了一个{{{数据集}}}中中间50%的数据的分布范围,具体定义为第三{{{四分位数}}} (Q3) 与第一四分位数 (Q1) 之间的差值。

其数学表达式为: $$ \text{IQR} = Q_3 - Q_1 $$

与{{{全距}}} (Range) 相比,四分位距是一个更为{{{稳健}}}的统计量,因为它不受数据集中极端{{{异常值}}} (Outliers) 的影响。这使得IQR在分析偏态分布或含有异常值的数据时特别有用。

## 基本概念:四分位数 (Quartiles)

要理解四分位距,首先必须理解{{{四分位数}}}。四分位数是将一个已排序的数据集分割成四个相等部分的值。

* 第一四分位数 (First Quartile, Q1):也称为下四分位数。它是一个值,使得数据集中有25%的观测值小于或等于它,75%的观测值大于或等于它。它本质上是数据前半部分的{{{中位数}}}。 * 第二四分位数 (Second Quartile, Q2):即数据集的{{{中位数}}} (Median)。它将数据集分为相等的两半,50%的观测值在它之下,50%在其之上。 * 第三四分位数 (Third Quartile, Q3):也称为上四分位数。它是一个值,使得数据集中有75%的观测值小于或等于它,25%的观测值大于或等于它。它本质上是数据后半部分的中位数。

因此,四分位距 $Q_3 - Q_1$ 覆盖了从第25个百分位到第75个百分位的数据,即数据集中间的50%。

## 如何计算四分位距

计算IQR的过程可以分解为以下几个步骤。

第一步:排序数据 将数据集中的所有观测值按从小到大的顺序排列。

第二步:计算中位数 (Q2) 找出整个数据集的中位数。 * 如果数据集有个数 $n$ 是奇数,中位数是位于第 $(n+1)/2$ 位置的数。 * 如果数据集有个数 $n$ 是偶数,中位数是位于第 $n/2$ 和第 $(n/2)+1$ 位置的两个数的平均值。

第三步:划分数据集并计算Q1和Q3 以中位数Q2为界,将数据集分为两半:前半部分(小于Q2的值)和后半部分(大于Q2的值)。 * 重要说明:关于在划分时是否包含中位数Q2,存在不同的计算约定。一种常见的方法(Tukey's hinges,或称“exclusive method”)是在划分时 不包含 中位数Q2本身。本讲义采用此方法。 * 计算前半部分数据的中位数,即为Q1。 * 计算后半部分数据的中位数,即为Q3。

第四步:计算IQR 用Q3减去Q1,得到四分位距。

### 计算示例

#### 示例 1: 数据点个数为奇数

假设我们有以下数据集: $\{1, 3, 3, 4, 5, 6, 6, 7, 8\}$

1. 排序:数据已经排好序。$n=9$。 2. 计算Q2:中位数是第 $(9+1)/2 = 5$ 个数,即 5。 3. 划分数据: * 前半部分(不含中位数5):$\{1, 3, 3, 4\}$ * 后半部分(不含中位数5):$\{6, 6, 7, 8\}$ 4. 计算Q1和Q3: * Q1是前半部分的中位数:$(3+3)/2 = 3$。 * Q3是后半部分的中位数:$(6+7)/2 = 6.5$。 5. 计算IQR: $$ \text{IQR} = Q_3 - Q_1 = 6.5 - 3 = 3.5 $$

#### 示例 2: 数据点个数为偶数

假设我们有以下数据集: $\{2, 5, 5, 6, 7, 8, 9, 12\}$

1. 排序:数据已经排好序。$n=8$。 2. 计算Q2:中位数是第 $8/2=4$ 个和第 $(8/2)+1=5$ 个数的平均值:$(6+7)/2 = 6.5$。 3. 划分数据: * 前半部分:$\{2, 5, 5, 6\}$ * 后半部分:$\{7, 8, 9, 12\}$ 4. 计算Q1和Q3: * Q1是前半部分的中位数:$(5+5)/2 = 5$。 * Q3是后半部分的中位数:$(8+9)/2 = 8.5$。 5. 计算IQR: $$ \text{IQR} = Q_3 - Q_1 = 8.5 - 5 = 3.5 $$

## 四分位距的应用

### 1. 识别异常值 (Outlier Detection)

IQR是识别数据集中潜在异常值的一种常用工具。通常使用"1.5倍IQR法则":

* 计算下界 (Lower Fence): $Q_1 - 1.5 \times \text{IQR}$ * 计算上界 (Upper Fence): $Q_3 + 1.5 \times \text{IQR}$

任何小于下界或大于上界的数据点都可以被标记为潜在的异常值。

示例:在示例2中, $Q_1=5$, $Q_3=8.5$, $\text{IQR}=3.5$。 * 下界 = $5 - 1.5 \times 3.5 = 5 - 5.25 = -0.25$ * 上界 = $8.5 + 1.5 \times 3.5 = 8.5 + 5.25 = 13.75$ 在数据集 $\{2, 5, 5, 6, 7, 8, 9, 12\}$ 中,所有值都在 $[-0.25, 13.75]$ 的范围内,因此根据此规则,该数据集没有异常值。

### 2. 构建{{{箱形图}}} (Box Plot)

IQR是{{{箱形图}}}的核心组成部分。箱形图是一种标准化的方式来展示数据的分布情况。

* 箱子的下边缘代表Q1。 * 箱子的上边缘代表Q3。 * 箱子的高度就是IQR。 * 箱子内部的线代表中位数Q2。 * 从箱子延伸出去的“胡须”(whiskers) 通常延伸到上界和下界内的最远数据点。 * 超出“胡须”范围的点被单独绘制出来,表示异常值。

## 与其他离散程度度量的比较

| 度量指标 | 计算方法 | 优点 | 缺点 | | :--- | :--- | :--- | :--- | | {{{全距}}} (Range) | 最大值 - 最小值 | 计算非常简单。 | 对异常值极其敏感,可能无法反映大部分数据的真实分布。 | | {{{方差}}} (Variance) | 数据点与均值之差的平方的平均值 | 考虑了所有数据点,数学性质优良。 | 单位是原始数据的平方,不直观;对异常值敏感。 | | {{{标准差}}} (Standard Deviation) | 方差的平方根 | 单位与原始数据相同,是描述正态分布最常用的指标。 | 依然对异常值敏感(尽管程度小于全距)。 | | 四分位距 (IQR) | Q3 - Q1 | 对异常值稳健,能很好地描述偏态分布的离散程度。 | 没有利用所有数据点的信息,只关注了中间50%的数据。 |

综上所述,四分位距是{{{稳健统计学}}}中的一个基本工具,对于探索性数据分析 (Exploratory Data Analysis, EDA) 至关重要。当数据集可能包含错误录入或极端情况时,IQR提供了一个比标准差或全距更可靠的离散程度度量。