# 分位数 (Quantile)
分位数 (Quantile) 是{{{概率论}}}和{{{统计学}}}中的一个核心概念,它指代将一个{{{概率分布}}}或一组观测{{{样本}}}划分为具有相同概率(或相同数量的观测值)的连续区间的分割点。换句话说,分位数是描述数据分布位置的数值。通过分位数,我们可以了解数据集中特定比例的数据落在哪个数值点之下。
分位数是一个广义的概念,许多常见的统计量都是其特例,例如{{{中位数}}} (Median)、{{{四分位数}}} (Quartile) 和{{{百分位数}}} (Percentile)。
## 理论定义
在理论层面,分位数的定义与{{{累积分布函数}}} (Cumulative Distribution Function, CDF) 紧密相关。
假设一个{{{随机变量}}} $X$ 的累积分布函数为 $F_X(x) = P(X \le x)$。对于一个介于 0 和 1 之间的概率值 $p$,其对应的 $p$-分位数 (the $p$-quantile),记作 $q_p$,是一个满足以下条件的数值 $x$:
$$ P(X \le q_p) \ge p \quad \text{且} \quad P(X \ge q_p) \ge 1-p $$
对于一个连续且严格单调递增的CDF,定义可以被简化。此时,$p$-分位数是其{{{反函数}}}(又称{{{分位数函数}}},Quantile Function)在 $p$ 点的值:
$$ q_p = F_X^{-1}(p) $$
这里的 $F_X^{-1}(p)$ 是指满足 $F_X(x) = p$ 的唯一值 $x$。这个定义的直观含义是:有 $100 \times p\%$ 的概率,随机变量 $X$ 的取值会小于或等于 $q_p$。
## 常见的分位数类型
分位数是一个“家族”概念,根据划分区间的数量不同,有不同的名称:
* {{{中位数}}} (Median): 它是 0.5-分位数 ($q_{0.5}$)。中位数将数据分布精确地分为两半,一半数据在其之下,另一半在其之上。它是衡量数据{{{集中趋势}}}的一个重要{{{稳健统计量}}}。
* {{{四分位数}}} (Quartile): 它们将数据分布分为四个相等的部分。 * 第一四分位数 (First Quartile, $Q_1$): 即 0.25-分位数 ($q_{0.25}$)。数据集中有 25% 的观测值小于或等于 $Q_1$。 * 第二四分位数 (Second Quartile, $Q_2$): 即 0.5-分位数 ($q_{0.5}$),也就是中位数。 * 第三四分位数 (Third Quartile, $Q_3$): 即 0.75-分位数 ($q_{0.75}$)。数据集中有 75% 的观测值小于或等于 $Q_3$。 * 基于四分位数,可以计算{{{四分位距}}} (Interquartile Range, IQR),即 $IQR = Q_3 - Q_1$。IQR 描述了数据中间 50% 的范围,是衡量{{{统计离散度}}}的一个稳健指标,常用于构建{{{箱形图}}} (Box Plot)。
* {{{十分位数}}} (Decile): 将数据分布分为十个相等的部分。例如,第九十分位数 ($D_9$ 或 $q_{0.9}$) 表示有 90% 的数据低于该值。这在{{{收入分配}}}研究中非常常见。
* {{{百分位数}}} (Percentile): 将数据分布分为一百个相等的部分。第 $k$ 百分位数 ($P_k$) 即 $k/100$-分位数 ($q_{k/100}$)。例如,考试成绩的“第99百分位”意味着该分数高于99%的考生。
## 样本分位数的计算
在实际应用中,我们通常处理的是有限的{{{样本}}}数据,而不是理论分布。计算样本分位数没有唯一标准,不同的统计软件(如 R, Python, SAS)可能采用略有不同的插值方法。以下是一种常用且直观的计算方法,基于{{{线性插值}}}。
假设我们有一组按升序排列的观测数据 $x_{(1)}, x_{(2)}, \ldots, x_{(n)}$,其中 $n$ 是样本量。
1. 计算秩 (Rank):为了找到 $p$-分位数,首先计算其对应的秩或索引 $i$。一个常见的公式是: $$ i = p \times (n+1) $$
2. 确定分位数的值: * 如果 $i$ 是一个整数,那么 $p$-分位数就是第 $i$ 个观测值 $x_{(i)}$。 * 如果 $i$不是一个整数,则需要进行线性插值。设 $k = \lfloor i \rfloor$ 为 $i$ 的整数部分, $f = i - k$ 为其小数部分。那么 $p$-分位数 $q_p$ 可以通过以下公式计算: $$ q_p = (1-f) \cdot x_{(k)} + f \cdot x_{(k+1)} $$
计算示例: 假设有以下一组样本数据($n=10$):{3, 6, 7, 8, 8, 10, 13, 15, 16, 20}。数据已经排好序。
* 计算第一四分位数 ($Q_1$, 即 $p=0.25$): 1. 计算秩:$i = 0.25 \times (10+1) = 2.75$。 2. $i$ 不是整数。其整数部分 $k=2$,小数部分 $f=0.75$。 3. $Q_1$ 位于第2个值 (6) 和第3个值 (7) 之间。 4. 插值计算:$Q_1 = (1-0.75) \cdot x_{(2)} + 0.75 \cdot x_{(3)} = 0.25 \times 6 + 0.75 \times 7 = 1.5 + 5.25 = 6.75$。
* 计算中位数 ($Q_2$, 即 $p=0.5$): 1. 计算秩:$i = 0.5 \times (10+1) = 5.5$。 2. $i$ 不是整数。其整数部分 $k=5$,小数部分 $f=0.5$。 3. 中位数位于第5个值 (8) 和第6个值 (10) 之间。 4. 插值计算:$Q_2 = (1-0.5) \cdot x_{(5)} + 0.5 \cdot x_{(6)} = 0.5 \times 8 + 0.5 \times 10 = 4 + 5 = 9$。
## 在经济与金融中的应用
分位数在经济和金融领域扮演着至关重要的角色。
1. {{{风险管理}}} (Risk Management):金融领域广泛使用的{{{风险价值}}} (Value at Risk, VaR) 正是一个分位数的应用。例如,一个投资组合的一日 95% VaR 为 $100 万,意味着在正常的市场条件下,有 95% 的把握该投资组合在未来一天的损失不会超过 $100 万。从统计学上看,这相当于投资组合损益分布的 5% 分位数 ($q_{0.05}$) 是 -$100 万。
2. {{{收入与财富分配}}}:经济学家使用十分位数或百分位数来分析社会中的{{{收入不平等}}}和{{{财富不平等}}}。例如,“最高收入10%人群的收入”实际上是指收入分布的第90百分位数 ($q_{0.9}$) 以上的群体。通过比较不同分位数的收入水平(如 $q_{0.9}/q_{0.1}$ 的比率),可以量化贫富差距。
3. {{{计量经济学}}}与{{{分位数回归}}} (Quantile Regression):传统的{{{线性回归}}}(如{{{普通最小二乘法}}} OLS)关注的是因变量的{{{条件期望}}}(均值)。然而,{{{分位数回归}}}则是一种更强大的工具,它允许我们研究自变量对因变量在不同分位数上的影响。例如,教育对于低收入人群(如10%分位数)的工资回报率,可能与对高收入人群(如90%分位数)的回报率不同。分位数回归能够揭示这种异质性效应。
4. 描述性统计与数据可视化: * {{{箱形图}}} (Box Plot):这种图形完全基于分位数(最小值、第一四分位数、中位数、第三四分位数、最大值),直观地展示了数据的分布、偏度和离群值。 * {{{QQ图}}} (Quantile-Quantile Plot):通过绘制样本分位数与理论分布(如{{{正态分布}}})分位数的散点图,QQ图可以用来检验样本数据是否服从某一特定分布。如果散点大致在一条直线上,则表明样本与理论分布拟合得很好。