ARTICLE

分位数函数

分位数函数 (Quantile Function) 分位数函数是概率论与统计学中的核心概念,它是一个随机变量的累积分布函数 (Cumulative Distribution Function, CDF) 的广义逆函数。分位数函数将一个概率 p (0, 1) 映射为随机变量取值空间中的对应点 x,使得随机变量不超过该点的概率至少为 p。它提供了从概率到取值的反

浏览 6 更新 2025-11-08

分位数函数 (Quantile Function)

分位数函数概率论统计学中的核心概念,它是一个随机变量累积分布函数 (Cumulative Distribution Function, CDF) 的广义逆函数。分位数函数将一个概率 p(0,1)p \in (0, 1) 映射为随机变量取值空间中的对应点 xx,使得随机变量不超过该点的概率至少为 pp。它提供了从概率到取值的反向映射路径,在统计推断、风险价值计算和蒙特卡洛模拟中具有不可替代的作用。

正式定义

XX 是一个随机变量,其累积分布函数为 FX(x)=P(Xx)F_X(x) = P(X \leq x)。则 XX分位数函数 QX:(0,1)RQ_X: (0, 1) \to \mathbb{R} 定义为:

QX(p)=inf{xRFX(x)p},0<p<1Q_X(p) = \inf\{\, x \in \mathbb{R} \mid F_X(x) \geq p \,\}, \quad 0 < p < 1

其中 inf\inf 表示下确界。这一定义采用下确界而非直接取逆,原因是 CDF 可能存在平坦段(对应于随机变量概率为零的区域)或跳跃点(离散分布的情形)。当 FXF_X 是严格单调递增的连续函数时,分位数函数就是 CDF 的普通逆函数,即 QX(p)=FX1(p)Q_X(p) = F_X^{-1}(p)

对于常见的 pp 值,分位数函数给出了广为人知的统计量:Q(0.5)Q(0.5)中位数Q(0.25)Q(0.25)Q(0.75)Q(0.75) 分别是第一四分位数和第三四分位数,而 Q(0.01)Q(0.01)Q(0.05)Q(0.05) 等对应着分布的尾部极值。

关键性质

分位数函数具有一系列优良的数学性质:

  1. 单调性:分位数函数是非递减的。若 p1p2p_1 \leq p_2,则 Q(p1)Q(p2)Q(p_1) \leq Q(p_2)。这直接源于 CDF 的非递减性。
  2. 左连续性:对于任意 p(0,1)p \in (0, 1),分位数函数是左连续的,即 limϵ0+Q(pϵ)=Q(p)\lim_{\epsilon \to 0^+} Q(p - \epsilon) = Q(p)
  3. 概率积分变换:若 UUniform(0,1)U \sim \text{Uniform}(0, 1),则随机变量 Y=QX(U)Y = Q_X(U) 的分布与 XX 相同,即 Y=dXY \stackrel{d}{=} X。这一性质是逆变换采样 (Inverse Transform Sampling) 的理论基础。
  4. 分位数函数的 CDF 性质:对于任意实数 xxp(0,1)p \in (0, 1),有 Q(p)xQ(p) \leq x 当且仅当 pFX(x)p \leq F_X(x)。这一对偶关系将分位数函数与 CDF 紧密耦合。
  5. 位置-尺度族:若 XX 的分位数函数为 QX(p)Q_X(p),则对于线性变换 Y=a+bXY = a + bX(其中 b>0b > 0),有 QY(p)=a+bQX(p)Q_Y(p) = a + b Q_X(p)

常见分布的分位数函数

不同的分布族拥有特定形式的分位数函数,以下列举几个典型例子:

均匀分布 U(a,b)U(a, b)。其 CDF 为 F(x)=(xa)/(ba)F(x) = (x - a) / (b - a),直接求逆得到线性的分位数函数:

Q(p)=a+(ba)p,0p1Q(p) = a + (b - a) p, \quad 0 \leq p \leq 1

指数分布 Exp(λ)\text{Exp}(\lambda)。CDF 为 F(x)=1eλxF(x) = 1 - e^{-\lambda x}x0x \geq 0),求逆得:

Q(p)=1λln(1p),0<p<1Q(p) = -\frac{1}{\lambda} \ln(1 - p), \quad 0 < p < 1

正态分布 N(μ,σ2)N(\mu, \sigma^2)。正态分布的 CDF Φ\Phi 没有闭式表达式,其分位数函数同样没有解析形式,通常记为 Φ1(p)\Phi^{-1}(p)probit(p)\text{probit}(p)。在实际计算中,通过有理函数逼近(如AS241算法)来精确计算。对于一般正态分布 N(μ,σ2)N(\mu, \sigma^2)

Q(p)=μ+σΦ1(p)Q(p) = \mu + \sigma \Phi^{-1}(p)

柯西分布 Cauchy(μ,γ)\text{Cauchy}(\mu, \gamma)。其厚尾特性使得分位数函数具有相对简单的解析形式:

Q(p)=μ+γtan(π(p12))Q(p) = \mu + \gamma \tan\left(\pi (p - \frac{1}{2})\right)

值得注意的是,当 p0+p \to 0^+p1p \to 1^- 时,许多分布的分位数函数会发散到 -\infty++\infty,反映了分布尾部无界的特点。

核心应用

分位数函数在经济学和金融学中扮演着关键角色。

风险价值 (Value at Risk, VaR)。在金融风险管理中,VaR 本质上就是资产收益率分布的分位数。给定置信水平 α\alpha(如 95\% 或 99\%),VaR 定义为损失分布的 (1α)(1 - \alpha)-分位数。例如,若某投资组合日收益率的 1\% 分位数为 3%-3\%,则其 99\% VaR 为 3\%,意味着在一天内损失超过 3\% 的概率不超过 1\%。

Q-Q 图 (Quantile-Quantile Plot)。Q-Q 图是检验数据是否服从特定分布的可视化工具。它将样本分位数与理论分位数绘制在同一坐标系中:若数据来自该理论分布,点应大致落在 45 度线上。Q-Q 图的系统性偏离可用于诊断厚尾偏度或模型失配。

逆变换采样。在蒙特卡洛方法中,生成服从特定分布的随机样本可以通过分位数函数完成:先生成均匀随机数 UU,再计算 X=Q(U)X = Q(U),则 XX 服从目标分布。这一方法简单高效,广泛用于仿真和贝叶斯计算

分位数回归 (Quantile Regression)。由罗杰·科恩克 (Roger Koenker) 和吉尔伯特·巴塞特 (Gilbert Bassett) 于 1978 年提出,分位数回归不再局限于建模条件均值 E(YX)E(Y \mid X),而是直接对条件分位数函数 QYX(p)Q_{Y \mid X}(p) 建模。这使得研究者能够分析解释变量对响应变量分布任意位置的影响,特别适用于刻画异质性效应和尾部行为。

与 CDF 的关系及直观理解

分位数函数与累积分布函数构成了"概率空间"与"取值空间"之间的双向桥梁。CDF 回答的是"随机变量不超过 xx 的概率是多少",而分位数函数回答的是"在概率 pp 的水平上,随机变量的取值上限是多少"。这种对称性使得分位数函数成为描述随机性全貌的另一视角:如果说 CDF 从纵轴(概率)看横轴(取值),分位数函数则从横轴看纵轴。

在经济数据分析中,分位数函数所蕴含的分布信息比均值和方差等矩统计量更为丰富。例如,在研究收入不平等时,中位数 Q(0.5)Q(0.5) 和 90/10 分位数比率 Q(0.9)/Q(0.1)Q(0.9)/Q(0.1) 比均值更能稳健地刻画分布的核心趋势与离散程度,因为它们不受极端值的影响。与此紧密相关的是 extbf{四分位距} (Interquartile Range, IQR),定义为 IQR=Q(0.75)Q(0.25)IQR = Q(0.75) - Q(0.25),它是衡量数据离散程度的稳健指标,广泛应用于箱线图的构造和异常值检测。

此外,分位数函数还衍生出 extbf{经验分位数函数} (Empirical Quantile Function),即基于样本数据直接构造的分位数估计。设样本的次序统计量为 X(1)X(2)X(n)X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)},则常见的经验分位数函数在 p=k/(n+1)p = k/(n+1) 处取值为 X(k)X_{(k)},中间点通过线性插值填补。经验分位数函数随着样本量增大依概率收敛于理论分位数函数,这为统计推断中的非参数方法提供了理论基础。