ARTICLE

分位数

分位数 (Quantile) 分位数 (Quantile) 是概率论和统计学中的一个核心概念,它指代将一个概率分布或一组观测样本划分为具有相同概率(或相同数量的观测值)的连续区间的分割点。换句话说,分位数是描述数据分布位置的数值。通过分位数,我们可以了解数据集中特定比例的数据落在哪个数值点之下。 分位数是一个广义的概念,许多常见的统计量都是其特例,例如中位数

浏览 92 更新 2025-10-26

分位数 (Quantile)

分位数 (Quantile) 是概率论统计学中的一个核心概念,它指代将一个概率分布或一组观测样本划分为具有相同概率(或相同数量的观测值)的连续区间的分割点。换句话说,分位数是描述数据分布位置的数值。通过分位数,我们可以了解数据集中特定比例的数据落在哪个数值点之下。

分位数是一个广义的概念,许多常见的统计量都是其特例,例如中位数 (Median)、四分位数 (Quartile) 和百分位数 (Percentile)。

理论定义

在理论层面,分位数的定义与累积分布函数 (Cumulative Distribution Function, CDF) 紧密相关。

假设一个随机变量 X X 的累积分布函数为 FX(x)=P(Xx) F_X(x) = P(X \le x) 。对于一个介于 0 和 1 之间的概率值 p p ,其对应的 p p -分位数 (the p p -quantile),记作 qp q_p ,是一个满足以下条件的数值 x x

P(Xqp)pP(Xqp)1pP(X \le q_p) \ge p \quad \text{且} \quad P(X \ge q_p) \ge 1-p

对于一个连续且严格单调递增的CDF,定义可以被简化。此时,p p -分位数是其反函数(又称分位数函数,Quantile Function)在 p p 点的值:

qp=FX1(p)q_p = F_X^{-1}(p)

这里的 FX1(p) F_X^{-1}(p) 是指满足 FX(x)=p F_X(x) = p 的唯一值 x x 。这个定义的直观含义是:有 100×p% 100 \times p\% 的概率,随机变量 X X 的取值会小于或等于 qp q_p

常见的分位数类型

分位数是一个“家族”概念,根据划分区间的数量不同,有不同的名称:

  • 中位数 (Median): 它是 0.5-分位数 (q0.5 q_{0.5} )。中位数将数据分布精确地分为两半,一半数据在其之下,另一半在其之上。它是衡量数据集中趋势的一个重要稳健统计量
  • 四分位数 (Quartile): 它们将数据分布分为四个相等的部分。
  • 第一四分位数 (First Quartile, Q1 Q_1 ): 即 0.25-分位数 (q0.25 q_{0.25} )。数据集中有 25\% 的观测值小于或等于 Q1 Q_1
  • 第二四分位数 (Second Quartile, Q2 Q_2 ): 即 0.5-分位数 (q0.5 q_{0.5} ),也就是中位数。
  • 第三四分位数 (Third Quartile, Q3 Q_3 ): 即 0.75-分位数 (q0.75 q_{0.75} )。数据集中有 75\% 的观测值小于或等于 Q3 Q_3
  • 基于四分位数,可以计算四分位距 (Interquartile Range, IQR),即 IQR=Q3Q1 IQR = Q_3 - Q_1 。IQR 描述了数据中间 50\% 的范围,是衡量统计离散度的一个稳健指标,常用于构建箱形图 (Box Plot)。
  • 十分位数 (Decile): 将数据分布分为十个相等的部分。例如,第九十分位数 (D9 D_9 q0.9 q_{0.9} ) 表示有 90\% 的数据低于该值。这在收入分配研究中非常常见。
  • 百分位数 (Percentile): 将数据分布分为一百个相等的部分。第 k k 百分位数 (Pk P_k ) 即 k/100 k/100 -分位数 (qk/100 q_{k/100} )。例如,考试成绩的“第99百分位”意味着该分数高于99\%的考生。

样本分位数的计算

在实际应用中,我们通常处理的是有限的样本数据,而不是理论分布。计算样本分位数没有唯一标准,不同的统计软件(如 R, Python, SAS)可能采用略有不同的插值方法。以下是一种常用且直观的计算方法,基于线性插值

假设我们有一组按升序排列的观测数据 x(1),x(2),,x(n) x_{(1)}, x_{(2)}, \ldots, x_{(n)} ,其中 n n 是样本量。

  1. 计算秩 (Rank):为了找到 p p -分位数,首先计算其对应的秩或索引 i i 。一个常见的公式是:
i=p×(n+1)i = p \times (n+1)
  1. 确定分位数的值
  • 如果 i i 是一个整数,那么 p p -分位数就是第 i i 个观测值 x(i) x_{(i)}
  • 如果 i i 不是一个整数,则需要进行线性插值。设 k=i k = \lfloor i \rfloor i i 的整数部分, f=ik f = i - k 为其小数部分。那么 p p -分位数 qp q_p 可以通过以下公式计算:
qp=(1f)x(k)+fx(k+1)q_p = (1-f) \cdot x_{(k)} + f \cdot x_{(k+1)}

计算示例: 假设有以下一组样本数据(n=10 n=10 ):{3, 6, 7, 8, 8, 10, 13, 15, 16, 20}。数据已经排好序。

  • 计算第一四分位数 (Q1 Q_1 , 即 p=0.25 p=0.25 )
  1. 计算秩:i=0.25×(10+1)=2.75 i = 0.25 \times (10+1) = 2.75
  2. i i 不是整数。其整数部分 k=2 k=2 ,小数部分 f=0.75 f=0.75
  3. Q1 Q_1 位于第2个值 (6) 和第3个值 (7) 之间。
  4. 插值计算:Q1=(10.75)x(2)+0.75x(3)=0.25×6+0.75×7=1.5+5.25=6.75 Q_1 = (1-0.75) \cdot x_{(2)} + 0.75 \cdot x_{(3)} = 0.25 \times 6 + 0.75 \times 7 = 1.5 + 5.25 = 6.75
  • 计算中位数 (Q2 Q_2 , 即 p=0.5 p=0.5 )
  1. 计算秩:i=0.5×(10+1)=5.5 i = 0.5 \times (10+1) = 5.5
  2. i i 不是整数。其整数部分 k=5 k=5 ,小数部分 f=0.5 f=0.5
  3. 中位数位于第5个值 (8) 和第6个值 (10) 之间。
  4. 插值计算:Q2=(10.5)x(5)+0.5x(6)=0.5×8+0.5×10=4+5=9 Q_2 = (1-0.5) \cdot x_{(5)} + 0.5 \cdot x_{(6)} = 0.5 \times 8 + 0.5 \times 10 = 4 + 5 = 9

在经济与金融中的应用

分位数在经济和金融领域扮演着至关重要的角色。

  1. 风险管理 (Risk Management):金融领域广泛使用的风险价值 (Value at Risk, VaR) 正是一个分位数的应用。例如,一个投资组合的一日 95\% VaR 为 $100 万,意味着在正常的市场条件下,有 95\% 的把握该投资组合在未来一天的损失不会超过 $100 万。从统计学上看,这相当于投资组合损益分布的 5\% 分位数 (q0.05 q_{0.05} ) 是 -$100 万。
  1. 收入与财富分配:经济学家使用十分位数或百分位数来分析社会中的收入不平等财富不平等。例如,“最高收入10\%人群的收入”实际上是指收入分布的第90百分位数 (q0.9 q_{0.9} ) 以上的群体。通过比较不同分位数的收入水平(如 q0.9/q0.1 q_{0.9}/q_{0.1} 的比率),可以量化贫富差距。
  1. 计量经济学分位数回归 (Quantile Regression):传统的线性回归(如普通最小二乘法 OLS)关注的是因变量的条件期望(均值)。然而,分位数回归则是一种更强大的工具,它允许我们研究自变量对因变量在不同分位数上的影响。例如,教育对于低收入人群(如10\%分位数)的工资回报率,可能与对高收入人群(如90\%分位数)的回报率不同。分位数回归能够揭示这种异质性效应。
  1. 描述性统计与数据可视化
  • 箱形图 (Box Plot):这种图形完全基于分位数(最小值、第一四分位数、中位数、第三四分位数、最大值),直观地展示了数据的分布、偏度和离群值。
  • QQ图 (Quantile-Quantile Plot):通过绘制样本分位数与理论分布(如正态分布)分位数的散点图,QQ图可以用来检验样本数据是否服从某一特定分布。如果散点大致在一条直线上,则表明样本与理论分布拟合得很好。