ARTICLE
四分位距
四分位距 (Interquartile Range) 四分位距 (Interquartile Range, IQR) 是描述统计学中一个重要的离散程度度量指标。它衡量了一个数据集中中间50\%的数据的分布范围,具体定义为第三四分位数 (Q3) 与第一四分位数 (Q1) 之间的差值。 其数学表达式为: 与全距 (Range) 相比,四分位距是一个更为稳健的统计
四分位距 (Interquartile Range)
四分位距 (Interquartile Range, IQR) 是描述统计学中一个重要的离散程度度量指标。它衡量了一个数据集中中间50\%的数据的分布范围,具体定义为第三四分位数 (Q3) 与第一四分位数 (Q1) 之间的差值。
其数学表达式为:
与全距 (Range) 相比,四分位距是一个更为稳健的统计量,因为它不受数据集中极端异常值 (Outliers) 的影响。这使得IQR在分析偏态分布或含有异常值的数据时特别有用。
基本概念:四分位数 (Quartiles)
要理解四分位距,首先必须理解四分位数。四分位数是将一个已排序的数据集分割成四个相等部分的值。
- 第一四分位数 (First Quartile, Q1):也称为下四分位数。它是一个值,使得数据集中有25\%的观测值小于或等于它,75\%的观测值大于或等于它。它本质上是数据前半部分的中位数。
- 第二四分位数 (Second Quartile, Q2):即数据集的中位数 (Median)。它将数据集分为相等的两半,50\%的观测值在它之下,50\%在其之上。
- 第三四分位数 (Third Quartile, Q3):也称为上四分位数。它是一个值,使得数据集中有75\%的观测值小于或等于它,25\%的观测值大于或等于它。它本质上是数据后半部分的中位数。
因此,四分位距 覆盖了从第25个百分位到第75个百分位的数据,即数据集中间的50\%。
如何计算四分位距
计算IQR的过程可以分解为以下几个步骤。
第一步:排序数据 将数据集中的所有观测值按从小到大的顺序排列。
第二步:计算中位数 (Q2) 找出整个数据集的中位数。
- 如果数据集有个数 是奇数,中位数是位于第 位置的数。
- 如果数据集有个数 是偶数,中位数是位于第 和第 位置的两个数的平均值。
第三步:划分数据集并计算Q1和Q3 以中位数Q2为界,将数据集分为两半:前半部分(小于Q2的值)和后半部分(大于Q2的值)。
- 重要说明:关于在划分时是否包含中位数Q2,存在不同的计算约定。一种常见的方法(Tukey's hinges,或称"exclusive method")是在划分时 不包含 中位数Q2本身。本讲义采用此方法。
- 计算前半部分数据的中位数,即为Q1。
- 计算后半部分数据的中位数,即为Q3。
第四步:计算IQR 用Q3减去Q1,得到四分位距。
计算示例
示例 1: 数据点个数为奇数
假设我们有以下数据集:
- 排序:数据已经排好序。。
- 计算Q2:中位数是第 个数,即 5。
- 划分数据: \begin{itemize}
- 前半部分(不含中位数5):
- 后半部分(不含中位数5): \end{itemize}
- 计算Q1和Q3: \begin{itemize}
- Q1是前半部分的中位数:。
- Q3是后半部分的中位数:。 \end{itemize}
- 计算IQR: \[ \text{IQR} = Q_3 - Q_1 = 6.5 - 3 = 3.5 \]
示例 2: 数据点个数为偶数
假设我们有以下数据集:
- 排序:数据已经排好序。。
- 计算Q2:中位数是第 个和第 个数的平均值:。
- 划分数据: \begin{itemize}
- 前半部分:
- 后半部分: \end{itemize}
- 计算Q1和Q3: \begin{itemize}
- Q1是前半部分的中位数:。
- Q3是后半部分的中位数:。 \end{itemize}
- 计算IQR: \[ \text{IQR} = Q_3 - Q_1 = 8.5 - 5 = 3.5 \]
四分位距的应用
识别异常值 (Outlier Detection)
IQR是识别数据集中潜在异常值的一种常用工具。通常使用"1.5倍IQR法则":
- 计算下界 (Lower Fence):
- 计算上界 (Upper Fence):
任何小于下界或大于上界的数据点都可以被标记为潜在的异常值。
示例:在示例2中, , , 。
- 下界 =
- 上界 =
在数据集 中,所有值都在 的范围内,因此根据此规则,该数据集没有异常值。
构建箱形图 (Box Plot)
IQR是箱形图的核心组成部分。箱形图是一种标准化的方式来展示数据的分布情况。
- 箱子的下边缘代表Q1。
- 箱子的上边缘代表Q3。
- 箱子的高度就是IQR。
- 箱子内部的线代表中位数Q2。
- 从箱子延伸出去的"胡须"(whiskers) 通常延伸到上界和下界内的最远数据点。
- 超出"胡须"范围的点被单独绘制出来,表示异常值。
与其他离散程度度量的比较
\begin{tabular}{|c|c|c|c|} \hline 度量指标 \& 计算方法 \& 优点 \& 缺点 \\ \hline 全距 (Range) \& 最大值 最小值 \& 计算非常简单。 \& 对异常值极其敏感,可能无法反映大部分数据的真实分布。 \\ \hline 方差 (Variance) \& 数据点与均值之差的平方的平均值 \& 考虑了所有数据点,数学性质优良。 \& 单位是原始数据的平方,不直观;对异常值敏感。 \\ \hline 标准差 (SD) \& 方差的平方根 \& 单位与原始数据相同,是描述正态分布最常用的指标。 \& 依然对异常值敏感(尽管程度小于全距)。 \\ \hline 四分位距 (IQR) \& Q3 Q1 \& 对异常值稳健,能很好地描述偏态分布的离散程度。 \& 没有利用所有数据点的信息,只关注了中间50\%的数据。 \\ \hline \end{tabular}
综上所述,四分位距是稳健统计学中的一个基本工具,对于探索性数据分析 (Exploratory Data Analysis, EDA) 至关重要。当数据集可能包含错误录入或极端情况时,IQR提供了一个比标准差或全距更可靠的离散程度度量。