ARTICLE

四分位距

四分位距 (Interquartile Range) 四分位距 (Interquartile Range, IQR) 是描述统计学中一个重要的离散程度度量指标。它衡量了一个数据集中中间50\%的数据的分布范围，具体定义为第三四分位数 (Q3) 与第一四分位数 (Q1) 之间的差值。其数学表达式为：与全距 (Range) 相比，四分位距是一个更为稳健的统计

浏览 57 更新 2025-10-26

四分位距 (Interquartile Range)

四分位距 (Interquartile Range, IQR) 是描述统计学中一个重要的离散程度度量指标。它衡量了一个数据集中中间50\%的数据的分布范围，具体定义为第三四分位数 (Q3) 与第一四分位数 (Q1) 之间的差值。

其数学表达式为：

\text{IQR} = Q_3 - Q_1

与全距 (Range) 相比，四分位距是一个更为稳健的统计量，因为它不受数据集中极端异常值 (Outliers) 的影响。这使得IQR在分析偏态分布或含有异常值的数据时特别有用。

基本概念：四分位数 (Quartiles)

要理解四分位距，首先必须理解四分位数。四分位数是将一个已排序的数据集分割成四个相等部分的值。

第一四分位数 (First Quartile, Q1)：也称为下四分位数。它是一个值，使得数据集中有25\%的观测值小于或等于它，75\%的观测值大于或等于它。它本质上是数据前半部分的中位数。
第二四分位数 (Second Quartile, Q2)：即数据集的中位数 (Median)。它将数据集分为相等的两半，50\%的观测值在它之下，50\%在其之上。
第三四分位数 (Third Quartile, Q3)：也称为上四分位数。它是一个值，使得数据集中有75\%的观测值小于或等于它，25\%的观测值大于或等于它。它本质上是数据后半部分的中位数。

因此，四分位距 $Q_3 - Q_1$ 覆盖了从第25个百分位到第75个百分位的数据，即数据集中间的50\%。

如何计算四分位距

计算IQR的过程可以分解为以下几个步骤。

第一步：排序数据 将数据集中的所有观测值按从小到大的顺序排列。

第二步：计算中位数 (Q2) 找出整个数据集的中位数。

如果数据集有个数 $n$ 是奇数，中位数是位于第 $(n+1)/2$ 位置的数。
如果数据集有个数 $n$ 是偶数，中位数是位于第 $n/2$ 和第 $(n/2)+1$ 位置的两个数的平均值。

第三步：划分数据集并计算Q1和Q3 以中位数Q2为界，将数据集分为两半：前半部分（小于Q2的值）和后半部分（大于Q2的值）。

重要说明：关于在划分时是否包含中位数Q2，存在不同的计算约定。一种常见的方法（Tukey's hinges，或称"exclusive method"）是在划分时 不包含 中位数Q2本身。本讲义采用此方法。
计算前半部分数据的中位数，即为Q1。
计算后半部分数据的中位数，即为Q3。

第四步：计算IQR 用Q3减去Q1，得到四分位距。

计算示例

示例 1: 数据点个数为奇数

假设我们有以下数据集： $\{1, 3, 3, 4, 5, 6, 6, 7, 8\}$

排序：数据已经排好序。 $n=9$ 。
计算Q2：中位数是第 $(9+1)/2 = 5$ 个数，即 5。
划分数据： \begin{itemize}
前半部分（不含中位数5）： $\{1, 3, 3, 4\}$
后半部分（不含中位数5）： $\{6, 6, 7, 8\}$ \end{itemize}
计算Q1和Q3： \begin{itemize}
Q1是前半部分的中位数： $(3+3)/2 = 3$ 。
Q3是后半部分的中位数： $(6+7)/2 = 6.5$ 。 \end{itemize}
计算IQR： \[ \text{IQR} = Q_3 - Q_1 = 6.5 - 3 = 3.5 \]

示例 2: 数据点个数为偶数

假设我们有以下数据集： $\{2, 5, 5, 6, 7, 8, 9, 12\}$

排序：数据已经排好序。 $n=8$ 。
计算Q2：中位数是第 $8/2=4$ 个和第 $(8/2)+1=5$ 个数的平均值： $(6+7)/2 = 6.5$ 。
划分数据： \begin{itemize}
前半部分： $\{2, 5, 5, 6\}$
后半部分： $\{7, 8, 9, 12\}$ \end{itemize}
计算Q1和Q3： \begin{itemize}
Q1是前半部分的中位数： $(5+5)/2 = 5$ 。
Q3是后半部分的中位数： $(8+9)/2 = 8.5$ 。 \end{itemize}
计算IQR： \[ \text{IQR} = Q_3 - Q_1 = 8.5 - 5 = 3.5 \]

四分位距的应用

识别异常值 (Outlier Detection)

IQR是识别数据集中潜在异常值的一种常用工具。通常使用"1.5倍IQR法则"：

计算下界 (Lower Fence)： $Q_1 - 1.5 \times \text{IQR}$
计算上界 (Upper Fence)： $Q_3 + 1.5 \times \text{IQR}$

任何小于下界或大于上界的数据点都可以被标记为潜在的异常值。

示例：在示例2中， $Q_1=5$ , $Q_3=8.5$ , $\text{IQR}=3.5$ 。

下界 = $5 - 1.5 \times 3.5 = 5 - 5.25 = -0.25$
上界 = $8.5 + 1.5 \times 3.5 = 8.5 + 5.25 = 13.75$

在数据集 $\{2, 5, 5, 6, 7, 8, 9, 12\}$ 中，所有值都在 $[-0.25, 13.75]$ 的范围内，因此根据此规则，该数据集没有异常值。

构建箱形图 (Box Plot)

IQR是箱形图的核心组成部分。箱形图是一种标准化的方式来展示数据的分布情况。

箱子的下边缘代表Q1。
箱子的上边缘代表Q3。
箱子的高度就是IQR。
箱子内部的线代表中位数Q2。
从箱子延伸出去的"胡须"(whiskers) 通常延伸到上界和下界内的最远数据点。
超出"胡须"范围的点被单独绘制出来，表示异常值。

与其他离散程度度量的比较

\begin{tabular}{|c|c|c|c|} \hline 度量指标 \& 计算方法 \& 优点 \& 缺点 \\ \hline 全距 (Range) \& 最大值 $-$ 最小值 \& 计算非常简单。 \& 对异常值极其敏感，可能无法反映大部分数据的真实分布。 \\ \hline 方差 (Variance) \& 数据点与均值之差的平方的平均值 \& 考虑了所有数据点，数学性质优良。 \& 单位是原始数据的平方，不直观；对异常值敏感。 \\ \hline 标准差 (SD) \& 方差的平方根 \& 单位与原始数据相同，是描述正态分布最常用的指标。 \& 依然对异常值敏感（尽管程度小于全距）。 \\ \hline 四分位距 (IQR) \& Q3 $-$ Q1 \& 对异常值稳健，能很好地描述偏态分布的离散程度。 \& 没有利用所有数据点的信息，只关注了中间50\%的数据。 \\ \hline \end{tabular}

综上所述，四分位距是稳健统计学中的一个基本工具，对于探索性数据分析 (Exploratory Data Analysis, EDA) 至关重要。当数据集可能包含错误录入或极端情况时，IQR提供了一个比标准差或全距更可靠的离散程度度量。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。