ARTICLE

四分位数

四分位数 (Quartile) 四分位数 (Quartile) 是描述性统计学中的一个核心概念,它是一种特殊类型的分位数 (Quantile)。四分位数的功能是将一个已排序的数据集 (Dataset) 分割成四个相等的部分,每个部分包含大约25\%的数据点。通过计算四分位数,我们可以深入了解数据的中心趋势 (Central Tendency)、离散程度 (D

浏览 35 更新 2025-10-26

四分位数 (Quartile)

四分位数 (Quartile) 是描述性统计学中的一个核心概念,它是一种特殊类型的分位数 (Quantile)。四分位数的功能是将一个已排序的数据集 (Dataset) 分割成四个相等的部分,每个部分包含大约25\%的数据点。通过计算四分位数,我们可以深入了解数据的中心趋势 (Central Tendency)、离散程度 (Dispersion) 和分布形态。

主要有三个四分位数:

  • 第一四分位数 (First Quartile, Q1):也称为下四分位数。此数值将数据中最小的25\%与其余的75\%分开。
  • 第二四分位数 (Second Quartile, Q2):此数值恰好是数据集的中位数 (Median)。它位于数据的正中央,将数据分为相等的两半。
  • 第三四分位数 (Third Quartile, Q3):也称为上四分位数。此数值将数据中最大的25\%与其余的75\%分开。

这三个点将整个数据集分成了四个区间,每个区间包含了约25\%的观测值。

计算方法

计算四分位数的第一步始终是将数据按升序排列。然而,关于如何精确确定Q1和Q3的位置,存在多种不同的计算方法。这里介绍一种在教学中广泛使用的方法(有时被称为"Tukey's hinges"或"独占中位数法")。

通用步骤:

  1. 排序:将数据集中的所有 nn 个观测值从最小到最大进行排序。
  2. 计算Q2 (中位数):如果数据点个数 nn 是奇数,Q2是位于正中间的那个数,其位置为 n+12\frac{n+1}{2}。如果数据点个数 nn 是偶数,Q2是中间两个数的平均值,这两个数的位置分别为 n2\frac{n}{2}n2+1\frac{n}{2}+1
  3. 确定数据子集:将数据集根据中位数Q2分为"下半部分"和"上半部分"。在独占法中,中位数本身不包含在任何一个子集中。
  4. 计算Q1和Q3:Q1是下半部分数据的中位数。Q3是上半部分数据的中位数。

示例 1: 数据点数量为奇数

假设我们有以下数据集 (n=9n=9):

{19,23,11,28,15,6,42,20,17}\{ 19, 23, 11, 28, 15, 6, 42, 20, 17 \}

排序:

{6,11,15,17,19,20,23,28,42}\{ 6, 11, 15, 17, 19, 20, 23, 28, 42 \}

计算Q2 (中位数): n=9n=9 是奇数,中位数是第 9+12=5\frac{9+1}{2} = 5 个数据点。

Q2=19Q_2 = 19

划分数据子集:

  • 下半部分 (不包含Q2): {6,11,15,17}\{ 6, 11, 15, 17 \}
  • 上半部分 (不包含Q2): {20,23,28,42}\{ 20, 23, 28, 42 \}

计算Q1和Q3: Q1是下半部分 {6,11,15,17}\{ 6, 11, 15, 17 \} 的中位数。由于有4个数据,Q1是中间两个数的平均值:

Q1=11+152=13Q_1 = \frac{11 + 15}{2} = 13

Q3是上半部分 {20,23,28,42}\{ 20, 23, 28, 42 \} 的中位数。同样,Q3是中间两个数的平均值:

Q3=23+282=25.5Q_3 = \frac{23 + 28}{2} = 25.5

示例 2: 数据点数量为偶数

假设我们有以下数据集 (n=10n=10):

{5,8,1,12,10,15,7,9,14,3}\{ 5, 8, 1, 12, 10, 15, 7, 9, 14, 3 \}

排序:

{1,3,5,7,8,9,10,12,14,15}\{ 1, 3, 5, 7, 8, 9, 10, 12, 14, 15 \}

计算Q2 (中位数): n=10n=10 是偶数,中位数是第 102=5\frac{10}{2}=5 和第 102+1=6\frac{10}{2}+1=6 个数据点的平均值。

Q2=8+92=8.5Q_2 = \frac{8+9}{2} = 8.5

划分数据子集: 由于中位数是计算出来的,没有原始数据点与之对应,数据被清晰地分为两半。

  • 下半部分: {1,3,5,7,8}\{ 1, 3, 5, 7, 8 \}
  • 上半部分: {9,10,12,14,15}\{ 9, 10, 12, 14, 15 \}

计算Q1和Q3: Q1是下半部分 {1,3,5,7,8}\{ 1, 3, 5, 7, 8 \} 的中位数。这是一个包含5个数据的子集,中位数是第3个数据:

Q1=5Q_1 = 5

Q3是上半部分 {9,10,12,14,15}\{ 9, 10, 12, 14, 15 \} 的中位数。同样,中位数是第3个数据:

Q3=12Q_3 = 12

注意: 不同的统计软件(如R, Python, Excel)可能使用不同的插值方法来计算四分位数,尤其是在处理小数据集时,结果可能存在微小差异。例如,一种常见方法是使用公式 P=k4(n+1)P = \frac{k}{4}(n+1) 来确定第 kk 个四分位数的位置,然后进行线性插值。学习者应了解方法的多样性,并在应用时保持一致。

应用与重要性

四分位数是统计分析中非常有用的工具,尤其体现在以下几个方面:

四分位距 (Interquartile Range, IQR)

四分位距是衡量数据变异性的一个重要且稳健的指标。它的计算公式为:

IQR=Q3Q1\text{IQR} = Q_3 - Q_1

IQR描述了数据集中间50\%的数据所覆盖的范围。与全距 (Range) 相比,IQR不受数据两端异常值 (Outlier) 的影响,因此它是一种更为稳健的离散程度度量方法。在上面的示例1中,IQR为 25.513=12.525.5 - 13 = 12.5

箱形图 (Box Plot)

箱形图是一种标准化的数据可视化方法,其构建完全依赖于四分位数。

  • 箱体 (Box):箱体的下边缘是Q1,上边缘是Q3。箱体的长度即为IQR。
  • 中位线 (Median Line):箱体内的一条线代表Q2 (中位数)。
  • 须 (Whiskers):从箱体两端延伸出的线段,通常延伸到数据集中的非异常值的最大值和最小值。一个常用的定义是,上须延伸到 Q3+1.5×IQRQ_3 + 1.5 \times \text{IQR} 范围内的最大数据点,下须延伸到 Q11.5×IQRQ_1 - 1.5 \times \text{IQR} 范围内的最小数据点。
  • 异常值:任何超出须范围的数据点通常被视为异常值,并单独绘制。

箱形图通过视觉化展示了数据的中心、散布范围和偏度 (Skewness),是比较不同数据集分布的有效工具。

五数概括 (Five-Number Summary)

五数概括是对数据集分布的简洁总结,它由以下五个统计量组成:

  1. 最小值 (Minimum)
  2. 第一四分位数 (Q1)
  3. 中位数 (Q2)
  4. 第三四分位数 (Q3)
  5. 最大值 (Maximum)

这个概括提供了关于数据位置、散布和分布范围的即时信息,是进行探索性数据分析(EDA)的基础。

与其他分位数的关系

四分位数是更广泛的分位数概念的一个实例。它们与百分位数 (Percentile) 有直接的对应关系:

  • Q1Q_1 = 第25百分位数 (P25P_{25})
  • Q2Q_2 = 第50百分位数 (P50P_{50}),即中位数
  • Q3Q_3 = 第75百分位数 (P75P_{75})

同样,十分位数 (Deciles) 将数据分为10个部分。在这种情况下,Q1Q_1 约等于第2.5个十分位数,Q2Q_2 是第5个十分位数。理解四分位数有助于掌握所有类型的分位数概念,这些概念在从金融风险管理到教育评估等众多领域都有广泛应用。