# 四分位数 (Quartile)
四分位数 (Quartile) 是{{{描述性统计学}}}中的一个核心概念,它是一种特殊类型的{{{分位数}}} (Quantile)。四分位数的功能是将一个已排序的{{{数据集}}} (Dataset) 分割成四个相等的部分,每个部分包含大约25%的数据点。通过计算四分位数,我们可以深入了解数据的{{{中心趋势}}} (Central Tendency)、{{{离散程度}}} (Dispersion) 和分布形态。
主要有三个四分位数:
1. 第一四分位数 (First Quartile, Q1):也称为下四分位数。此数值将数据中最小的25%与其余的75%分开。 2. 第二四分位数 (Second Quartile, Q2):此数值恰好是数据集的{{{中位数}}} (Median)。它位于数据的正中央,将数据分为相等的两半。 3. 第三四分位数 (Third Quartile, Q3):也称为上四分位数。此数值将数据中最大的25%与其余的75%分开。
这三个点将整个数据集分成了四个区间,每个区间包含了约25%的观测值。
## 计算方法
计算四分位数的第一步始终是将数据按升序排列。然而,关于如何精确确定Q1和Q3的位置,存在多种不同的计算方法。这里介绍一种在教学中广泛使用的方法(有时被称为“Tukey's hinges”或“独占中位数法”)。
通用步骤:
1. 排序:将数据集中的所有 $n$ 个观测值从最小到最大进行排序。 2. 计算Q2 (中位数): * 如果数据点个数 $n$ 是奇数,Q2是位于正中间的那个数,其位置为 $\frac{n+1}{2}$。 * 如果数据点个数 $n$ 是偶数,Q2是中间两个数的平均值,这两个数的位置分别为 $\frac{n}{2}$ 和 $\frac{n}{2}+1$。 3. 确定数据子集: * 将数据集根据中位数Q2分为“下半部分”和“上半部分”。在独占法中,中位数本身不包含在任何一个子集中。 4. 计算Q1和Q3: * Q1是下半部分数据的中位数。 * Q3是上半部分数据的中位数。
### 示例 1: 数据点数量为奇数
假设我们有以下数据集 ($n=9$): $$ \{ 19, 23, 11, 28, 15, 6, 42, 20, 17 \} $$
1. 排序: $$ \{ 6, 11, 15, 17, 19, 20, 23, 28, 42 \} $$
2. 计算Q2 (中位数): $n=9$ 是奇数,中位数是第 $\frac{9+1}{2} = 5$ 个数据点。 $$ Q_2 = 19 $$
3. 划分数据子集: * 下半部分 (不包含Q2): $ \{ 6, 11, 15, 17 \} $ * 上半部分 (不包含Q2): $ \{ 20, 23, 28, 42 \} $
4. 计算Q1和Q3: * Q1是下半部分 $\{ 6, 11, 15, 17 \}$ 的中位数。由于有4个数据,Q1是中间两个数的平均值: $$ Q_1 = \frac{11 + 15}{2} = 13 $$ * Q3是上半部分 $\{ 20, 23, 28, 42 \}$ 的中位数。同样,Q3是中间两个数的平均值: $$ Q_3 = \frac{23 + 28}{2} = 25.5 $$
### 示例 2: 数据点数量为偶数
假设我们有以下数据集 ($n=10$): $$ \{ 5, 8, 1, 12, 10, 15, 7, 9, 14, 3 \} $$
1. 排序: $$ \{ 1, 3, 5, 7, 8, 9, 10, 12, 14, 15 \} $$
2. 计算Q2 (中位数): $n=10$ 是偶数,中位数是第 $\frac{10}{2}=5$ 和第 $\frac{10}{2}+1=6$ 个数据点的平均值。 $$ Q_2 = \frac{8+9}{2} = 8.5 $$
3. 划分数据子集: 由于中位数是计算出来的,没有原始数据点与之对应,数据被清晰地分为两半。 * 下半部分: $ \{ 1, 3, 5, 7, 8 \} $ * 上半部分: $ \{ 9, 10, 12, 14, 15 \} $
4. 计算Q1和Q3: * Q1是下半部分 $\{ 1, 3, 5, 7, 8 \}$ 的中位数。这是一个包含5个数据的子集,中位数是第3个数据: $$ Q_1 = 5 $$ * Q3是上半部分 $\{ 9, 10, 12, 14, 15 \}$ 的中位数。同样,中位数是第3个数据: $$ Q_3 = 12 $$
注意: 不同的统计软件(如R, Python, Excel)可能使用不同的插值方法来计算四分位数,尤其是在处理小数据集时,结果可能存在微小差异。例如,一种常见方法是使用公式 $P = \frac{k}{4}(n+1)$ 来确定第 $k$ 个四分位数的位置,然后进行线性插值。学习者应了解方法的多样性,并在应用时保持一致。
## 应用与重要性
四分位数是统计分析中非常有用的工具,尤其体现在以下几个方面:
### 1. 四分位距 (Interquartile Range, IQR)
{{{四分位距}}}是衡量数据变异性的一个重要且稳健的指标。它的计算公式为: $$ \text{IQR} = Q_3 - Q_1 $$ IQR描述了数据集中间50%的数据所覆盖的范围。与{{{全距}}} (Range) 相比,IQR不受数据两端{{{异常值}}} (Outlier) 的影响,因此它是一种更为稳健的{{{离散程度}}}度量方法。在上面的示例1中,IQR为 $25.5 - 13 = 12.5$。
### 2. 箱形图 (Box Plot)
{{{箱形图}}}是一种标准化的数据可视化方法,其构建完全依赖于四分位数。 * 箱体 (Box):箱体的下边缘是Q1,上边缘是Q3。箱体的长度即为IQR。 * 中位线 (Median Line):箱体内的一条线代表Q2 (中位数)。 * 须 (Whiskers):从箱体两端延伸出的线段,通常延伸到数据集中的非异常值的最大值和最小值。一个常用的定义是,上须延伸到 $Q_3 + 1.5 \times \text{IQR}$ 范围内的最大数据点,下须延伸到 $Q_1 - 1.5 \times \text{IQR}$ 范围内的最小数据点。 * 异常值:任何超出须范围的数据点通常被视为异常值,并单独绘制。
箱形图通过视觉化展示了数据的中心、散布范围和{{{偏度}}} (Skewness),是比较不同数据集分布的有效工具。
### 3. 五数概括 (Five-Number Summary)
{{{五数概括}}}是对数据集分布的简洁总结,它由以下五个统计量组成: 1. 最小值 (Minimum) 2. 第一四分位数 (Q1) 3. 中位数 (Q2) 4. 第三四分位数 (Q3) 5. 最大值 (Maximum)
这个概括提供了关于数据位置、散布和分布范围的即时信息,是进行探索性数据分析(EDA)的基础。
## 与其他分位数的关系
四分位数是更广泛的分位数概念的一个实例。它们与{{{百分位数}}} (Percentile) 有直接的对应关系: * $Q_1$ = 第25百分位数 ($P_{25}$) * $Q_2$ = 第50百分位数 ($P_{50}$),即中位数 * $Q_3$ = 第75百分位数 ($P_{75}$)
同样,{{{十分位数}}} (Deciles) 将数据分为10个部分。在这种情况下,$Q_1$ 约等于第2.5个十分位数,$Q_2$ 是第5个十分位数。理解四分位数有助于掌握所有类型的分位数概念,这些概念在从金融风险管理到教育评估等众多领域都有广泛应用。