ARTICLE

四分位距

四分位距 (Interquartile Range) 四分位距 (Interquartile Range, IQR) 是描述统计学中一个重要的离散程度度量指标。它衡量了一个数据集中中间50\%的数据的分布范围,具体定义为第三四分位数 (Q3) 与第一四分位数 (Q1) 之间的差值。 其数学表达式为: 与全距 (Range) 相比,四分位距是一个更为稳健的统计

浏览 57 更新 2025-10-26

四分位距 (Interquartile Range)

四分位距 (Interquartile Range, IQR) 是描述统计学中一个重要的离散程度度量指标。它衡量了一个数据集中中间50\%的数据的分布范围,具体定义为第三四分位数 (Q3) 与第一四分位数 (Q1) 之间的差值。

其数学表达式为:

IQR=Q3Q1\text{IQR} = Q_3 - Q_1

全距 (Range) 相比,四分位距是一个更为稳健的统计量,因为它不受数据集中极端异常值 (Outliers) 的影响。这使得IQR在分析偏态分布或含有异常值的数据时特别有用。

基本概念:四分位数 (Quartiles)

要理解四分位距,首先必须理解四分位数。四分位数是将一个已排序的数据集分割成四个相等部分的值。

  • 第一四分位数 (First Quartile, Q1):也称为下四分位数。它是一个值,使得数据集中有25\%的观测值小于或等于它,75\%的观测值大于或等于它。它本质上是数据前半部分的中位数
  • 第二四分位数 (Second Quartile, Q2):即数据集的中位数 (Median)。它将数据集分为相等的两半,50\%的观测值在它之下,50\%在其之上。
  • 第三四分位数 (Third Quartile, Q3):也称为上四分位数。它是一个值,使得数据集中有75\%的观测值小于或等于它,25\%的观测值大于或等于它。它本质上是数据后半部分的中位数。

因此,四分位距 Q3Q1Q_3 - Q_1 覆盖了从第25个百分位到第75个百分位的数据,即数据集中间的50\%。

如何计算四分位距

计算IQR的过程可以分解为以下几个步骤。

第一步:排序数据 将数据集中的所有观测值按从小到大的顺序排列。

第二步:计算中位数 (Q2) 找出整个数据集的中位数。

  • 如果数据集有个数 nn 是奇数,中位数是位于第 (n+1)/2(n+1)/2 位置的数。
  • 如果数据集有个数 nn 是偶数,中位数是位于第 n/2n/2 和第 (n/2)+1(n/2)+1 位置的两个数的平均值。

第三步:划分数据集并计算Q1和Q3 以中位数Q2为界,将数据集分为两半:前半部分(小于Q2的值)和后半部分(大于Q2的值)。

  • 重要说明:关于在划分时是否包含中位数Q2,存在不同的计算约定。一种常见的方法(Tukey's hinges,或称"exclusive method")是在划分时 不包含 中位数Q2本身。本讲义采用此方法。
  • 计算前半部分数据的中位数,即为Q1。
  • 计算后半部分数据的中位数,即为Q3。

第四步:计算IQR 用Q3减去Q1,得到四分位距。

计算示例

示例 1: 数据点个数为奇数

假设我们有以下数据集: {1,3,3,4,5,6,6,7,8}\{1, 3, 3, 4, 5, 6, 6, 7, 8\}

  1. 排序:数据已经排好序。n=9n=9
  2. 计算Q2:中位数是第 (9+1)/2=5(9+1)/2 = 5 个数,即 5
  3. 划分数据: \begin{itemize}
  4. 前半部分(不含中位数5):{1,3,3,4}\{1, 3, 3, 4\}
  5. 后半部分(不含中位数5):{6,6,7,8}\{6, 6, 7, 8\} \end{itemize}
  6. 计算Q1和Q3: \begin{itemize}
  7. Q1是前半部分的中位数:(3+3)/2=3(3+3)/2 = 3
  8. Q3是后半部分的中位数:(6+7)/2=6.5(6+7)/2 = 6.5。 \end{itemize}
  9. 计算IQR: \[ \text{IQR} = Q_3 - Q_1 = 6.5 - 3 = 3.5 \]

示例 2: 数据点个数为偶数

假设我们有以下数据集: {2,5,5,6,7,8,9,12}\{2, 5, 5, 6, 7, 8, 9, 12\}

  1. 排序:数据已经排好序。n=8n=8
  2. 计算Q2:中位数是第 8/2=48/2=4 个和第 (8/2)+1=5(8/2)+1=5 个数的平均值:(6+7)/2=6.5(6+7)/2 = 6.5
  3. 划分数据: \begin{itemize}
  4. 前半部分:{2,5,5,6}\{2, 5, 5, 6\}
  5. 后半部分:{7,8,9,12}\{7, 8, 9, 12\} \end{itemize}
  6. 计算Q1和Q3: \begin{itemize}
  7. Q1是前半部分的中位数:(5+5)/2=5(5+5)/2 = 5
  8. Q3是后半部分的中位数:(8+9)/2=8.5(8+9)/2 = 8.5。 \end{itemize}
  9. 计算IQR: \[ \text{IQR} = Q_3 - Q_1 = 8.5 - 5 = 3.5 \]

四分位距的应用

识别异常值 (Outlier Detection)

IQR是识别数据集中潜在异常值的一种常用工具。通常使用"1.5倍IQR法则":

  • 计算下界 (Lower Fence)Q11.5×IQRQ_1 - 1.5 \times \text{IQR}
  • 计算上界 (Upper Fence)Q3+1.5×IQRQ_3 + 1.5 \times \text{IQR}

任何小于下界或大于上界的数据点都可以被标记为潜在的异常值。

示例:在示例2中, Q1=5Q_1=5, Q3=8.5Q_3=8.5, IQR=3.5\text{IQR}=3.5

  • 下界 = 51.5×3.5=55.25=0.255 - 1.5 \times 3.5 = 5 - 5.25 = -0.25
  • 上界 = 8.5+1.5×3.5=8.5+5.25=13.758.5 + 1.5 \times 3.5 = 8.5 + 5.25 = 13.75

在数据集 {2,5,5,6,7,8,9,12}\{2, 5, 5, 6, 7, 8, 9, 12\} 中,所有值都在 [0.25,13.75][-0.25, 13.75] 的范围内,因此根据此规则,该数据集没有异常值。

构建箱形图 (Box Plot)

IQR是箱形图的核心组成部分。箱形图是一种标准化的方式来展示数据的分布情况。

  • 箱子的下边缘代表Q1。
  • 箱子的上边缘代表Q3。
  • 箱子的高度就是IQR。
  • 箱子内部的线代表中位数Q2。
  • 从箱子延伸出去的"胡须"(whiskers) 通常延伸到上界和下界内的最远数据点。
  • 超出"胡须"范围的点被单独绘制出来,表示异常值。

与其他离散程度度量的比较

\begin{tabular}{|c|c|c|c|} \hline 度量指标 \& 计算方法 \& 优点 \& 缺点 \\ \hline 全距 (Range) \& 最大值 - 最小值 \& 计算非常简单。 \& 对异常值极其敏感,可能无法反映大部分数据的真实分布。 \\ \hline 方差 (Variance) \& 数据点与均值之差的平方的平均值 \& 考虑了所有数据点,数学性质优良。 \& 单位是原始数据的平方,不直观;对异常值敏感。 \\ \hline 标准差 (SD) \& 方差的平方根 \& 单位与原始数据相同,是描述正态分布最常用的指标。 \& 依然对异常值敏感(尽管程度小于全距)。 \\ \hline 四分位距 (IQR) \& Q3 - Q1 \& 对异常值稳健,能很好地描述偏态分布的离散程度。 \& 没有利用所有数据点的信息,只关注了中间50\%的数据。 \\ \hline \end{tabular}

综上所述,四分位距是稳健统计学中的一个基本工具,对于探索性数据分析 (Exploratory Data Analysis, EDA) 至关重要。当数据集可能包含错误录入或极端情况时,IQR提供了一个比标准差或全距更可靠的离散程度度量。