ARTICLE
分位数函数
分位数函数 (Quantile Function) 分位数函数是概率论与统计学中的核心概念,它是一个随机变量的累积分布函数 (Cumulative Distribution Function, CDF) 的广义逆函数。分位数函数将一个概率 p (0, 1) 映射为随机变量取值空间中的对应点 x,使得随机变量不超过该点的概率至少为 p。它提供了从概率到取值的反
分位数函数 (Quantile Function)
分位数函数是概率论与统计学中的核心概念,它是一个随机变量的累积分布函数 (Cumulative Distribution Function, CDF) 的广义逆函数。分位数函数将一个概率 映射为随机变量取值空间中的对应点 ,使得随机变量不超过该点的概率至少为 。它提供了从概率到取值的反向映射路径,在统计推断、风险价值计算和蒙特卡洛模拟中具有不可替代的作用。
正式定义
设 是一个随机变量,其累积分布函数为 。则 的分位数函数 定义为:
其中 表示下确界。这一定义采用下确界而非直接取逆,原因是 CDF 可能存在平坦段(对应于随机变量概率为零的区域)或跳跃点(离散分布的情形)。当 是严格单调递增的连续函数时,分位数函数就是 CDF 的普通逆函数,即 。
对于常见的 值,分位数函数给出了广为人知的统计量: 是中位数, 和 分别是第一四分位数和第三四分位数,而 、 等对应着分布的尾部极值。
关键性质
分位数函数具有一系列优良的数学性质:
- 单调性:分位数函数是非递减的。若 ,则 。这直接源于 CDF 的非递减性。
- 左连续性:对于任意 ,分位数函数是左连续的,即 。
- 概率积分变换:若 ,则随机变量 的分布与 相同,即 。这一性质是逆变换采样 (Inverse Transform Sampling) 的理论基础。
- 分位数函数的 CDF 性质:对于任意实数 和 ,有 当且仅当 。这一对偶关系将分位数函数与 CDF 紧密耦合。
- 位置-尺度族:若 的分位数函数为 ,则对于线性变换 (其中 ),有 。
常见分布的分位数函数
不同的分布族拥有特定形式的分位数函数,以下列举几个典型例子:
均匀分布 。其 CDF 为 ,直接求逆得到线性的分位数函数:
指数分布 。CDF 为 (),求逆得:
正态分布 。正态分布的 CDF 没有闭式表达式,其分位数函数同样没有解析形式,通常记为 或 。在实际计算中,通过有理函数逼近(如AS241算法)来精确计算。对于一般正态分布 :
柯西分布 。其厚尾特性使得分位数函数具有相对简单的解析形式:
值得注意的是,当 或 时,许多分布的分位数函数会发散到 或 ,反映了分布尾部无界的特点。
核心应用
分位数函数在经济学和金融学中扮演着关键角色。
风险价值 (Value at Risk, VaR)。在金融风险管理中,VaR 本质上就是资产收益率分布的分位数。给定置信水平 (如 95\% 或 99\%),VaR 定义为损失分布的 -分位数。例如,若某投资组合日收益率的 1\% 分位数为 ,则其 99\% VaR 为 3\%,意味着在一天内损失超过 3\% 的概率不超过 1\%。
Q-Q 图 (Quantile-Quantile Plot)。Q-Q 图是检验数据是否服从特定分布的可视化工具。它将样本分位数与理论分位数绘制在同一坐标系中:若数据来自该理论分布,点应大致落在 45 度线上。Q-Q 图的系统性偏离可用于诊断厚尾、偏度或模型失配。
逆变换采样。在蒙特卡洛方法中,生成服从特定分布的随机样本可以通过分位数函数完成:先生成均匀随机数 ,再计算 ,则 服从目标分布。这一方法简单高效,广泛用于仿真和贝叶斯计算。
分位数回归 (Quantile Regression)。由罗杰·科恩克 (Roger Koenker) 和吉尔伯特·巴塞特 (Gilbert Bassett) 于 1978 年提出,分位数回归不再局限于建模条件均值 ,而是直接对条件分位数函数 建模。这使得研究者能够分析解释变量对响应变量分布任意位置的影响,特别适用于刻画异质性效应和尾部行为。
与 CDF 的关系及直观理解
分位数函数与累积分布函数构成了"概率空间"与"取值空间"之间的双向桥梁。CDF 回答的是"随机变量不超过 的概率是多少",而分位数函数回答的是"在概率 的水平上,随机变量的取值上限是多少"。这种对称性使得分位数函数成为描述随机性全貌的另一视角:如果说 CDF 从纵轴(概率)看横轴(取值),分位数函数则从横轴看纵轴。
在经济数据分析中,分位数函数所蕴含的分布信息比均值和方差等矩统计量更为丰富。例如,在研究收入不平等时,中位数 和 90/10 分位数比率 比均值更能稳健地刻画分布的核心趋势与离散程度,因为它们不受极端值的影响。与此紧密相关的是 extbf{四分位距} (Interquartile Range, IQR),定义为 ,它是衡量数据离散程度的稳健指标,广泛应用于箱线图的构造和异常值检测。
此外,分位数函数还衍生出 extbf{经验分位数函数} (Empirical Quantile Function),即基于样本数据直接构造的分位数估计。设样本的次序统计量为 ,则常见的经验分位数函数在 处取值为 ,中间点通过线性插值填补。经验分位数函数随着样本量增大依概率收敛于理论分位数函数,这为统计推断中的非参数方法提供了理论基础。