ARTICLE

四分位数

四分位数 (Quartile) 四分位数 (Quartile) 是描述性统计学中的一个核心概念，它是一种特殊类型的分位数 (Quantile)。四分位数的功能是将一个已排序的数据集 (Dataset) 分割成四个相等的部分，每个部分包含大约25\%的数据点。通过计算四分位数，我们可以深入了解数据的中心趋势 (Central Tendency)、离散程度 (D

浏览 35 更新 2025-10-26

四分位数 (Quartile)

四分位数 (Quartile) 是描述性统计学中的一个核心概念，它是一种特殊类型的分位数 (Quantile)。四分位数的功能是将一个已排序的数据集 (Dataset) 分割成四个相等的部分，每个部分包含大约25\%的数据点。通过计算四分位数，我们可以深入了解数据的中心趋势 (Central Tendency)、离散程度 (Dispersion) 和分布形态。

主要有三个四分位数：

第一四分位数 (First Quartile, Q1)：也称为下四分位数。此数值将数据中最小的25\%与其余的75\%分开。
第二四分位数 (Second Quartile, Q2)：此数值恰好是数据集的中位数 (Median)。它位于数据的正中央，将数据分为相等的两半。
第三四分位数 (Third Quartile, Q3)：也称为上四分位数。此数值将数据中最大的25\%与其余的75\%分开。

这三个点将整个数据集分成了四个区间，每个区间包含了约25\%的观测值。

计算方法

计算四分位数的第一步始终是将数据按升序排列。然而，关于如何精确确定Q1和Q3的位置，存在多种不同的计算方法。这里介绍一种在教学中广泛使用的方法（有时被称为"Tukey's hinges"或"独占中位数法"）。

通用步骤：

排序：将数据集中的所有 $n$ 个观测值从最小到最大进行排序。
计算Q2 (中位数)：如果数据点个数 $n$ 是奇数，Q2是位于正中间的那个数，其位置为 $\frac{n+1}{2}$ 。如果数据点个数 $n$ 是偶数，Q2是中间两个数的平均值，这两个数的位置分别为 $\frac{n}{2}$ 和 $\frac{n}{2}+1$ 。
确定数据子集：将数据集根据中位数Q2分为"下半部分"和"上半部分"。在独占法中，中位数本身不包含在任何一个子集中。
计算Q1和Q3：Q1是下半部分数据的中位数。Q3是上半部分数据的中位数。

示例 1: 数据点数量为奇数

假设我们有以下数据集 ( $n=9$ ):

\{ 19, 23, 11, 28, 15, 6, 42, 20, 17 \}

排序:

\{ 6, 11, 15, 17, 19, 20, 23, 28, 42 \}

计算Q2 (中位数): $n=9$ 是奇数，中位数是第 $\frac{9+1}{2} = 5$ 个数据点。

Q_2 = 19

划分数据子集:

下半部分 (不包含Q2): $\{ 6, 11, 15, 17 \}$
上半部分 (不包含Q2): $\{ 20, 23, 28, 42 \}$

计算Q1和Q3: Q1是下半部分 $\{ 6, 11, 15, 17 \}$ 的中位数。由于有4个数据，Q1是中间两个数的平均值:

Q_1 = \frac{11 + 15}{2} = 13

Q3是上半部分 $\{ 20, 23, 28, 42 \}$ 的中位数。同样，Q3是中间两个数的平均值:

Q_3 = \frac{23 + 28}{2} = 25.5

示例 2: 数据点数量为偶数

假设我们有以下数据集 ( $n=10$ ):

\{ 5, 8, 1, 12, 10, 15, 7, 9, 14, 3 \}

排序:

\{ 1, 3, 5, 7, 8, 9, 10, 12, 14, 15 \}

计算Q2 (中位数): $n=10$ 是偶数，中位数是第 $\frac{10}{2}=5$ 和第 $\frac{10}{2}+1=6$ 个数据点的平均值。

Q_2 = \frac{8+9}{2} = 8.5

划分数据子集: 由于中位数是计算出来的，没有原始数据点与之对应，数据被清晰地分为两半。

下半部分: $\{ 1, 3, 5, 7, 8 \}$
上半部分: $\{ 9, 10, 12, 14, 15 \}$

计算Q1和Q3: Q1是下半部分 $\{ 1, 3, 5, 7, 8 \}$ 的中位数。这是一个包含5个数据的子集，中位数是第3个数据:

Q_1 = 5

Q3是上半部分 $\{ 9, 10, 12, 14, 15 \}$ 的中位数。同样，中位数是第3个数据:

Q_3 = 12

注意: 不同的统计软件（如R, Python, Excel）可能使用不同的插值方法来计算四分位数，尤其是在处理小数据集时，结果可能存在微小差异。例如，一种常见方法是使用公式 $P = \frac{k}{4}(n+1)$ 来确定第 $k$ 个四分位数的位置，然后进行线性插值。学习者应了解方法的多样性，并在应用时保持一致。

应用与重要性

四分位数是统计分析中非常有用的工具，尤其体现在以下几个方面：

四分位距 (Interquartile Range, IQR)

四分位距是衡量数据变异性的一个重要且稳健的指标。它的计算公式为：

\text{IQR} = Q_3 - Q_1

IQR描述了数据集中间50\%的数据所覆盖的范围。与全距 (Range) 相比，IQR不受数据两端异常值 (Outlier) 的影响，因此它是一种更为稳健的离散程度度量方法。在上面的示例1中，IQR为 $25.5 - 13 = 12.5$ 。

箱形图 (Box Plot)

箱形图是一种标准化的数据可视化方法，其构建完全依赖于四分位数。

箱体 (Box)：箱体的下边缘是Q1，上边缘是Q3。箱体的长度即为IQR。
中位线 (Median Line)：箱体内的一条线代表Q2 (中位数)。
须 (Whiskers)：从箱体两端延伸出的线段，通常延伸到数据集中的非异常值的最大值和最小值。一个常用的定义是，上须延伸到 $Q_3 + 1.5 \times \text{IQR}$ 范围内的最大数据点，下须延伸到 $Q_1 - 1.5 \times \text{IQR}$ 范围内的最小数据点。
异常值：任何超出须范围的数据点通常被视为异常值，并单独绘制。

箱形图通过视觉化展示了数据的中心、散布范围和偏度 (Skewness)，是比较不同数据集分布的有效工具。

五数概括 (Five-Number Summary)

五数概括是对数据集分布的简洁总结，它由以下五个统计量组成：

最小值 (Minimum)
第一四分位数 (Q1)
中位数 (Q2)
第三四分位数 (Q3)
最大值 (Maximum)

这个概括提供了关于数据位置、散布和分布范围的即时信息，是进行探索性数据分析（EDA）的基础。

与其他分位数的关系

四分位数是更广泛的分位数概念的一个实例。它们与百分位数 (Percentile) 有直接的对应关系：

$Q_1$ = 第25百分位数 ( $P_{25}$ )
$Q_2$ = 第50百分位数 ( $P_{50}$ )，即中位数
$Q_3$ = 第75百分位数 ( $P_{75}$ )

同样，十分位数 (Deciles) 将数据分为10个部分。在这种情况下， $Q_1$ 约等于第2.5个十分位数， $Q_2$ 是第5个十分位数。理解四分位数有助于掌握所有类型的分位数概念，这些概念在从金融风险管理到教育评估等众多领域都有广泛应用。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。