ARTICLE
四分位数
四分位数 (Quartile) 四分位数 (Quartile) 是描述性统计学中的一个核心概念,它是一种特殊类型的分位数 (Quantile)。四分位数的功能是将一个已排序的数据集 (Dataset) 分割成四个相等的部分,每个部分包含大约25\%的数据点。通过计算四分位数,我们可以深入了解数据的中心趋势 (Central Tendency)、离散程度 (D
四分位数 (Quartile)
四分位数 (Quartile) 是描述性统计学中的一个核心概念,它是一种特殊类型的分位数 (Quantile)。四分位数的功能是将一个已排序的数据集 (Dataset) 分割成四个相等的部分,每个部分包含大约25\%的数据点。通过计算四分位数,我们可以深入了解数据的中心趋势 (Central Tendency)、离散程度 (Dispersion) 和分布形态。
主要有三个四分位数:
- 第一四分位数 (First Quartile, Q1):也称为下四分位数。此数值将数据中最小的25\%与其余的75\%分开。
- 第二四分位数 (Second Quartile, Q2):此数值恰好是数据集的中位数 (Median)。它位于数据的正中央,将数据分为相等的两半。
- 第三四分位数 (Third Quartile, Q3):也称为上四分位数。此数值将数据中最大的25\%与其余的75\%分开。
这三个点将整个数据集分成了四个区间,每个区间包含了约25\%的观测值。
计算方法
计算四分位数的第一步始终是将数据按升序排列。然而,关于如何精确确定Q1和Q3的位置,存在多种不同的计算方法。这里介绍一种在教学中广泛使用的方法(有时被称为"Tukey's hinges"或"独占中位数法")。
通用步骤:
- 排序:将数据集中的所有 个观测值从最小到最大进行排序。
- 计算Q2 (中位数):如果数据点个数 是奇数,Q2是位于正中间的那个数,其位置为 。如果数据点个数 是偶数,Q2是中间两个数的平均值,这两个数的位置分别为 和 。
- 确定数据子集:将数据集根据中位数Q2分为"下半部分"和"上半部分"。在独占法中,中位数本身不包含在任何一个子集中。
- 计算Q1和Q3:Q1是下半部分数据的中位数。Q3是上半部分数据的中位数。
示例 1: 数据点数量为奇数
假设我们有以下数据集 ():
排序:
计算Q2 (中位数): 是奇数,中位数是第 个数据点。
划分数据子集:
- 下半部分 (不包含Q2):
- 上半部分 (不包含Q2):
计算Q1和Q3: Q1是下半部分 的中位数。由于有4个数据,Q1是中间两个数的平均值:
Q3是上半部分 的中位数。同样,Q3是中间两个数的平均值:
示例 2: 数据点数量为偶数
假设我们有以下数据集 ():
排序:
计算Q2 (中位数): 是偶数,中位数是第 和第 个数据点的平均值。
划分数据子集: 由于中位数是计算出来的,没有原始数据点与之对应,数据被清晰地分为两半。
- 下半部分:
- 上半部分:
计算Q1和Q3: Q1是下半部分 的中位数。这是一个包含5个数据的子集,中位数是第3个数据:
Q3是上半部分 的中位数。同样,中位数是第3个数据:
注意: 不同的统计软件(如R, Python, Excel)可能使用不同的插值方法来计算四分位数,尤其是在处理小数据集时,结果可能存在微小差异。例如,一种常见方法是使用公式 来确定第 个四分位数的位置,然后进行线性插值。学习者应了解方法的多样性,并在应用时保持一致。
应用与重要性
四分位数是统计分析中非常有用的工具,尤其体现在以下几个方面:
四分位距 (Interquartile Range, IQR)
四分位距是衡量数据变异性的一个重要且稳健的指标。它的计算公式为:
IQR描述了数据集中间50\%的数据所覆盖的范围。与全距 (Range) 相比,IQR不受数据两端异常值 (Outlier) 的影响,因此它是一种更为稳健的离散程度度量方法。在上面的示例1中,IQR为 。
箱形图 (Box Plot)
箱形图是一种标准化的数据可视化方法,其构建完全依赖于四分位数。
- 箱体 (Box):箱体的下边缘是Q1,上边缘是Q3。箱体的长度即为IQR。
- 中位线 (Median Line):箱体内的一条线代表Q2 (中位数)。
- 须 (Whiskers):从箱体两端延伸出的线段,通常延伸到数据集中的非异常值的最大值和最小值。一个常用的定义是,上须延伸到 范围内的最大数据点,下须延伸到 范围内的最小数据点。
- 异常值:任何超出须范围的数据点通常被视为异常值,并单独绘制。
箱形图通过视觉化展示了数据的中心、散布范围和偏度 (Skewness),是比较不同数据集分布的有效工具。
五数概括 (Five-Number Summary)
五数概括是对数据集分布的简洁总结,它由以下五个统计量组成:
- 最小值 (Minimum)
- 第一四分位数 (Q1)
- 中位数 (Q2)
- 第三四分位数 (Q3)
- 最大值 (Maximum)
这个概括提供了关于数据位置、散布和分布范围的即时信息,是进行探索性数据分析(EDA)的基础。
与其他分位数的关系
四分位数是更广泛的分位数概念的一个实例。它们与百分位数 (Percentile) 有直接的对应关系:
- = 第25百分位数 ()
- = 第50百分位数 (),即中位数
- = 第75百分位数 ()
同样,十分位数 (Deciles) 将数据分为10个部分。在这种情况下, 约等于第2.5个十分位数, 是第5个十分位数。理解四分位数有助于掌握所有类型的分位数概念,这些概念在从金融风险管理到教育评估等众多领域都有广泛应用。