知经 KNOWECON · 卓越的经济金融统计数学学习平台

累积分布函数

# 累积分布函数 (Cumulative Distribution Function)

累积分布函数 (Cumulative Distribution Function, 简称 CDF),在{{{概率论}}}和{{{统计学}}}中,是一个用于描述{{{随机变量}}} $X$ 的概率分布的函数。对于任意实数 $x$,CDF的值定义为随机变量 $X$ 取值小于或等于 $x$ 的{{{概率}}}。其标准数学表示为 $F_X(x)$。

CDF的核心思想是“累积”,它提供了从负无穷到某个特定点的概率总和。因此,它也被称为 分布函数。理解CDF对于掌握随机变量的特性、计算概率以及进行统计推断至关重要。

## 形式化定义

设 $X$ 是一个定义在某个{{{概率空间}}}上的随机变量。其累积分布函数 $F_X: \mathbb{R} \to [0, 1]$ 定义为: $$ F_X(x) = P(X \le x) $$ 其中,$P(X \le x)$ 表示随机变量 $X$ 的取值不大于实数 $x$ 的概率。

根据随机变量的类型,CDF的具体计算方式有所不同:

一. {{{离散随机变量}}} (Discrete Random Variable) 如果 $X$ 是一个离散随机变量,其可能的取值为 $x_1, x_2, \ldots$。其{{{概率质量函数}}} (Probability Mass Function, PMF)为 $p(x_i) = P(X=x_i)$。那么,它的CDF是所有小于等于 $x$ 的可能取值的概率之和: $$ F_X(x) = \sum_{x_i \le x} P(X=x_i) = \sum_{x_i \le x} p(x_i) $$ 离散随机变量的CDF是一个阶梯函数(step function),在每个可能的取值点 $x_i$ 处发生跳跃,跳跃的高度等于 $P(X=x_i)$。

二. {{{连续随机变量}}} (Continuous Random Variable) 如果 $X$ 是一个连续随机变量,其{{{概率密度函数}}} (Probability Density Function, PDF)为 $f_X(t)$。那么,它的CDF是其PDF从负无穷到 $x$ 的{{{积分}}}: $$ F_X(x) = \int_{-\infty}^{x} f_X(t) \, dt $$ 连续随机变量的CDF是一个连续且非递减的函数。

## CDF的基本性质

任何一个合法的CDF,无论其对应的随机变量是离散的、连续的还是混合的,都必须满足以下三个基本性质:

1. 非递减性 (Non-decreasing) 对于任意两个实数 $x_1$ 和 $x_2$,如果 $x_1 \le x_2$,那么必然有 $F_X(x_1) \le F_X(x_2)$。 讲义解释:这个性质源于概率的非负性。从 $x_1$ 到 $x_2$ 的区间 $(x_1, x_2]$ 的概率是 $P(x_1 < X \le x_2) = F_X(x_2) - F_X(x_1)$。由于概率不能为负,所以 $F_X(x_2) - F_X(x_1) \ge 0$,即 $F_X(x_2) \ge F_X(x_1)$。随着 $x$ 的增加,我们是在累积更多的概率,所以函数值只能增加或保持不变。

2. 极限行为 (Limiting Behavior) CDF在正负无穷处的极限分别为: $$ \lim_{x \to -\infty} F_X(x) = 0 $$ $$ \lim_{x \to +\infty} F_X(x) = 1 $$ 讲义解释:当 $x$ 趋向负无穷时,$X \le x$ 是一个几乎不可能发生的事件,其概率为0。当 $x$ 趋向正无穷时,$X \le x$ 包含了所有可能的取值,是一个必然事件,其总概率为1。

3. 右连续性 (Right-continuity) CDF在任何点 $x$ 都是右连续的,即: $$ \lim_{h \to 0^+} F_X(x+h) = F_X(x) $$ 讲义解释:这意味着当你从一个点 $x$ 的右侧无限逼近它时,函数的极限值等于该点的函数值。对于离散随机变量,这表现为在跳跃点处,函数值等于阶梯较高处的值。

## 与PDF/PMF的关系

CDF与PDF(连续情况)或PMF(离散情况)是描述同一概率分布的两种不同方式,它们可以相互转换。

* 从 PDF/PMF 到 CDF:如定义所示,通过积分(连续)或求和(离散)可以得到CDF。

* 从 CDF 到 PDF/PMF: * 对于连续随机变量,其PDF是CDF的{{{导数}}}(在CDF可导的点上): $$ f_X(x) = \frac{d}{dx}F_X(x) $$ * 对于离散随机变量,其PMF可以通过计算CDF在相邻可能取值点上的差值得到。假设 $x_i$ 是一个可能的取值,则: $$ p(x_i) = P(X=x_i) = F_X(x_i) - \lim_{h \to 0^+} F_X(x_i - h) = F_X(x_i) - F_X(x_{i-1}) $$ 这里的 $F_X(x_{i-1})$ 是在 $x_i$ 之前的那个可能取值点的CDF值。跳跃的高度即为该点的概率。

## 示例

#### 示例1:离散随机变量(公平的六面骰子)

考虑投掷一个公平的六面骰子,随机变量 $X$ 表示掷出的点数。$X$ 的可能取值为 $\{1, 2, 3, 4, 5, 6\}$,每个取值的概率(PMF)为 $p(x) = 1/6$。

其CDF $F_X(x) = P(X \le x)$ 的计算如下: * 如果 $x < 1$, $F_X(x) = P(X \le x) = 0$。 * 如果 $1 \le x < 2$, $F_X(x) = P(X \le x) = P(X=1) = 1/6$。 * 如果 $2 \le x < 3$, $F_X(x) = P(X=1) + P(X=2) = 1/6 + 1/6 = 2/6$。 * 如果 $3 \le x < 4$, $F_X(x) = 3/6$。 * 如果 $4 \le x < 5$, $F_X(x) = 4/6$。 * 如果 $5 \le x < 6$, $F_X(x) = 5/6$。 * 如果 $x \ge 6$, $F_X(x) = P(X=1) + \ldots + P(X=6) = 6/6 = 1$。

这是一个典型的阶梯函数,在 $1, 2, 3, 4, 5, 6$ 各点处向上跳跃了 $1/6$。

#### 示例2:连续随机变量({{{均匀分布}}})

考虑一个服从区间 $[a, b]$ 上{{{均匀分布}}}的随机变量 $X$。其PDF为: $$ f_X(x) = \begin{cases} \frac{1}{b-a} & \text{if } a \le x \le b \\ 0 & \text{otherwise} \end{cases} $$ 我们可以通过积分得到其CDF $F_X(x)$: * 对于 $x < a$: $$ F_X(x) = \int_{-\infty}^{x} 0 \, dt = 0 $$ * 对于 $a \le x \le b$: $$ F_X(x) = \int_{-\infty}^{a} 0 \, dt + \int_{a}^{x} \frac{1}{b-a} \, dt = 0 + \left[ \frac{t}{b-a} \right]_{a}^{x} = \frac{x-a}{b-a} $$ * 对于 $x > b$: $$ F_X(x) = \int_{-\infty}^{a} 0 \, dt + \int_{a}^{b} \frac{1}{b-a} \, dt + \int_{b}^{x} 0 \, dt = 0 + 1 + 0 = 1 $$

综上,均匀分布的CDF是一个从0线性增长到1的函数。

## 应用

CDF在理论和应用中都极为重要:

1. 计算概率:CDF最直接的应用是计算随机变量落在某个区间的概率。 $$ P(a < X \le b) = F_X(b) - F_X(a) $$ 对于连续变量,由于单点概率为0,所以 $P(a < X < b) = P(a \le X \le b) = F_X(b) - F_X(a)$。但对于离散变量,必须小心处理边界点。

2. 定义{{{分位数}}} (Quantiles):{{{分位数函数}}}(或百分点函数)是CDF的{{{反函数}}},$Q(p) = F_X^{-1}(p)$。它回答了这样一个问题:“哪个值 $x$ 使得随机变量小于或等于它的概率为 $p$?”。中位数就是 $p=0.5$ 时的分位数。这在金融中的{{{风险价值 (Value at Risk, VaR)}}}计算中至关重要。

3. 生成随机数:在{{{蒙特卡洛模拟}}}中,CDF被用于{{{逆变换采样法}}} (Inverse Transform Sampling)。通过在 $[0, 1]$ 区间上生成一个均匀分布的随机数 $u$,然后计算 $x = F_X^{-1}(u)$,就可以得到一个服从所需分布 $F_X$ 的随机数 $x$。

4. 统计检验:一些{{{非参数检验}}}方法,如{{{柯尔莫哥洛夫-斯米尔诺夫检验}}} (Kolmogorov-Smirnov Test),直接比较两个样本的{{{经验分布函数}}} (Empirical Distribution Function, ECF),ECDF是真实CDF的一个样本估计,从而判断它们是否来自同一分布。