ARTICLE

累计分布函数

累计分布函数 (Cumulative Distribution Function) 累计分布函数(Cumulative Distribution Function, CDF)是概率论中描述随机变量分布的完整函数形式。对于任意随机变量 X ,其累计分布函数定义为 F_X(x) = P(X x) ,即 X 取值不超过实数 x 的概率。相较于概率质量函数(PMF,

浏览 0 更新 2025-12-20

累计分布函数 (Cumulative Distribution Function)

累计分布函数(Cumulative Distribution Function, CDF)是概率论中描述随机变量分布的完整函数形式。对于任意随机变量 X X ,其累计分布函数定义为 FX(x)=P(Xx) F_X(x) = P(X \le x) ,即 X X 取值不超过实数 x x 的概率。相较于概率质量函数(PMF,仅适用于离散变量)或概率密度函数(PDF,仅适用于连续变量),CDF 具有无可比拟的普适性——它对所有类型的随机变量(离散、连续或混合型)都能给出统一且完整的刻画,且不依赖可微性或可求和性条件。可以说,CDF 是概率论从具体分布计算走向抽象测度公理化体系的桥梁。

定义与基本性质

X X 为一随机变量,其 CDF 为:

F(x)=P(Xx),<x<F(x) = P(X \le x), \quad -\infty < x < \infty

任意 CDF 满足以下三条本质属性:

  1. 单调非减:若 x1<x2 x_1 < x_2 ,则 F(x1)F(x2) F(x_1) \le F(x_2) 。概率的累积天然具有单调性。
  2. 边界条件limxF(x)=0 \lim_{x \to -\infty} F(x) = 0 limx+F(x)=1 \lim_{x \to +\infty} F(x) = 1 。左端趋近不可能事件,右端趋近必然事件。
  3. 右连续F(x)=limtx+F(t) F(x) = \lim_{t \to x^+} F(t) 。这一定义上的约定确保了点概率的归属区间为 (,x] (-\infty, x]

这三条性质也是 CDF 的充要条件(Carathéodory 延拓定理的推论):任何满足单调非减、左极限 0 右极限 1、右连续的实函数都唯一确定一个概率测度。换言之,CDF 与概率测度之间存在一一对应关系——这是 Lebesgue–Stieltjes 积分理论的核心洞见,也是现代概率论得以将随机变量转化为实轴上的分析问题的逻辑起点。

与密度函数的关系

对于连续型随机变量,CDF 与 PDF 互为积分—微分关系:

F(x)=xf(t)dt,f(x)=F(x)(几乎处处成立)F(x) = \int_{-\infty}^{x} f(t)\,dt, \quad f(x) = F'(x) \quad\text{(几乎处处成立)}

对于离散型随机变量,CDF 为阶梯函数:

F(x)=xixP(X=xi)F(x) = \sum_{x_i \le x} P(X = x_i)

阶梯的跳跃高度等于对应取值点的概率质量。这一统一视角使 CDF 成为连接离散与连续世界的桥梁——在测度论框架下,Lebesgue–Stieltjes 积分正是以 CDF 为积分测度的自然工具。

概率计算中的核心地位

CDF 直接提供了区间概率的通用计算方式:

P(a<Xb)=F(b)F(a)P(a < X \le b) = F(b) - F(a)

对于连续变量,端点取等与否不影响概率值;对于离散变量,P(aXb) P(a \le X \le b) 需谨慎处理阶梯跳跃。此外,生存函数(Survival Function)定义为 S(x)=1F(x) S(x) = 1 - F(x) ,在可靠性工程与生物统计中广泛使用,常以 Kaplan–Meier 估计量非参数地估计。

逆变换与分位数

分位函数的严格定义

CDF 的广义逆函数——分位函数——定义为:

Q(p)=inf{xR:F(x)p},p(0,1)Q(p) = \inf\{x \in \mathbb{R} : F(x) \ge p\}, \quad p \in (0, 1)

这一函数是统计学中分位数(中位数、四分位数等)的形式化定义,也是逆变换采样法(Inverse Transform Sampling)的理论基础:若 UUniform(0,1) U \sim \text{Uniform}(0,1) ,则 Q(U) Q(U) 服从分布 F F 。该算法是随机模拟中最基础的采样方法,只需生成均匀随机数再通过分位函数变换即可。

多元累计分布函数

联合分布与边缘分布

对于随机向量 (X1,,Xd) (X_1, \dots, X_d) ,联合 CDF 定义为:

F(x1,,xd)=P(X1x1,,Xdxd)F(x_1, \dots, x_d) = P(X_1 \le x_1, \dots, X_d \le x_d)

边缘 CDF 可通过令其他分量趋于无穷得到,如 FX1(x1)=F(x1,,,) F_{X_1}(x_1) = F(x_1, \infty, \dots, \infty) 。多元 CDF 的单调性推广为"区间概率非负"这一更复杂的条件——即任意 d d 维矩形上的概率增量非负,这等价于 CDF 的 d d 阶混合差分非负。这一条件正是 Sklar 定理(Copula 理论的基础)的起点:任意多元 CDF 均可分解为边缘 CDF 与 Copula 函数的复合,将相关结构从边际分布中干净地分离出来。在金融风险管理中,Copula 模型正是利用这一分解来分别建模资产收益的边际分布与其尾部依赖结构。

经验分布函数

给定样本 X1,,Xn X_1, \dots, X_n 经验分布函数(ECDF)是 CDF 的非参数估计:

F^n(x)=1ni=1n1{Xix}\hat{F}_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{\{X_i \le x\}}

Glivenko–Cantelli 定理保证 F^n \hat{F}_n 一致收敛到真实 F F ,而 Kolmogorov–Smirnov 检验基于 supxF^n(x)F(x) \sup_x |\hat{F}_n(x) - F(x)| 构造拟合优度统计量。ECDF 的 Bootstrap 重采样进一步为现代非参数推断提供了计算基础。

在经济学中的应用

经济学中 CDF 的应用贯穿各类随机模型:

  • 随机占优:投资组合 A A 一阶随机占优 B B 当且仅当 FA(x)FB(x) F_A(x) \le F_B(x) 对所有 x x 成立,刻画了所有风险规避型投资者偏好 A A 的充分条件。二阶随机占优进一步引入均值保持展型(Mean-Preserving Spread)的概念。
  • 拍卖理论:独立私人价值模型中,投标者的估值是来自同一 CDF 的独立随机变量,均衡出价函数由 CDF 及其分位函数决定。
  • 劳动经济学:工资分布的 CDF 刻画不平等程度,Lorenz 曲线与基尼系数本质上是 CDF 的二次变换。
  • 计量经济学:分位数回归(Koenker \& Bassett, 1978)直接建模条件分位函数,提供比均值回归更完整的变量关系图景。

与其他概念的联系

CDF 是概率论的公理化基石。Kolmogorov 公理体系以概率空间 (Ω,F,P) (\Omega, \mathcal{F}, P) 为起点,而 CDF 将抽象概率测度转化为实轴上的具体函数,使数学家可以用微积分工具处理随机性。特征函数(Characteristic Function)φ(t)=E[eitX] \varphi(t) = E[e^{itX}] 与 CDF 通过傅里叶变换一一对应,Levy 连续性定理保证特征函数点态收敛蕴含分布收敛。矩生成函数(MGF)在原点邻域存在时也唯一确定 CDF,但在重尾分布中常失效,此时特征函数是更稳健的替代。

核心直觉:CDF 是概率论中最直观也最完整的分布表达——它回答了一个最基础的问题:"随机变量不超过某个值的概率是多少?" 从这一简单问题出发,可以导出整个现代概率论与统计推断的体系。