知经 KNOWECON · 卓越的经济金融统计数学学习平台

经验分布函数的定义与计算

# 经验分布函数 (Empirical Distribution Function)

经验分布函数 (Empirical Distribution Function, EDF 或 ECDF) 是{{{统计学}}}中一个至关重要的概念,特别是在{{{非参数统计}}}领域。它是一个基于观测{{{样本}}}数据的函数,用于估计一个随机变量背后未知的真实{{{累积分布函数}}} (Cumulative Distribution Function, CDF)。简而言之,经验分布函数利用样本信息,构建了一个对总体分布的近似描述。

给定一个大小为 $n$ 的独立同分布 (i.i.d.) 随机样本 $X_1, X_2, \ldots, X_n$,其共同的但未知的累积分布函数为 $F(x) = P(X \le x)$。经验分布函数 $\hat{F}_n(x)$ 定义为:

$$ \hat{F}_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \le x) $$

其中 $I(\cdot)$ 是{{{指示函数}}} (indicator function)。这个公式的直观含义是:对于任意给定的值 $x$,函数 $\hat{F}_n(x)$ 的值等于样本中不大于 $x$ 的观测值所占的比例

## 核心特性

经验分布函数具有几个显著的特性,使其成为一个优秀的{{{估计量}}}和分析工具。

1. 阶梯函数 (Step Function): $\hat{F}_n(x)$ 是一个右连续的{{{阶梯函数}}}。它的值在两个连续的有序观测值之间保持不变,并且在每个观测值 $X_i$ 的位置发生跳跃。

2. 跳跃幅度: 如果所有样本观测值都不同,那么在每个观测值 $X_i$ 处,函数值会向上跳跃 $1/n$。如果存在 $k$ 个相同的观测值,那么在该值处的跳跃幅度为 $k/n$。

3. 分布属性: $\hat{F}_n(x)$ 本身就是一个合法的累积分布函数。它对应于一个{{{离散均匀分布}}},该分布将 $1/n$ 的{{{概率质量}}}赋予样本中的每一个观测点 $X_1, \ldots, X_n$。

4. 边界值: 与任何CDF一样,$\hat{F}_n(x)$ 满足: * $\lim_{x \to -\infty} \hat{F}_n(x) = 0$ * $\lim_{x \to \infty} \hat{F}_n(x) = 1$

## 经验分布函数的构建与计算

构建经验分布函数是一个直接且清晰的过程。以下是具体步骤:

第一步:收集并排序数据 假设我们有一个样本,包含 $n$ 个观测值:$\{X_1, X_2, \ldots, X_n\}$。首先,将这些数据从小到大进行排序,得到{{{顺序统计量}}} (Order Statistics):$X_{(1)} \le X_{(2)} \le \ldots \le X_{(n)}$。

第二步:定义函数分段表达式 基于排序后的数据,$\hat{F}_n(x)$可以表示为一个分段函数:

$$ \hat{F}_n(x) = \begin{cases} 0 & \text{if } x < X_{(1)} \\ \frac{k}{n} & \text{if } X_{(k)} \le x < X_{(k+1)} \text{ for } k = 1, \ldots, n-1 \\ 1 & \text{if } x \ge X_{(n)} \end{cases} $$

这个表达式在处理所有值都不同的样本时非常清晰。当存在重复值(ties)时,使用原始定义 $\hat{F}_n(x) = (\text{小于等于 } x \text{ 的样本点个数})/n$ 更为通用和稳健。

### 计算示例

假设我们有一个样本,其观测值为 $\{4.1, 2.5, 6.3, 2.5, 5.0\}$。

1. 样本大小: $n=5$。 2. 排序数据: 将数据排序得到 $X_{(1)}=2.5, X_{(2)}=2.5, X_{(3)}=4.1, X_{(4)}=5.0, X_{(5)}=6.3$。 3. 构建函数: * 当 $x < 2.5$ 时,样本中没有小于等于 $x$ 的值,所以 $\hat{F}_5(x) = 0/5 = 0$。 * 当 $2.5 \le x < 4.1$ 时,样本中有两个值(2.5, 2.5)小于等于 $x$,所以 $\hat{F}_5(x) = 2/5 = 0.4$。 * 当 $4.1 \le x < 5.0$ 时,样本中有三个值(2.5, 2.5, 4.1)小于等于 $x$,所以 $\hat{F}_5(x) = 3/5 = 0.6$。 * 当 $5.0 \le x < 6.3$ 时,样本中有四个值(2.5, 2.5, 4.1, 5.0)小于等于 $x$,所以 $\hat{F}_5(x) = 4/5 = 0.8$。 * 当 $x \ge 6.3$ 时,样本中所有五个值都小于等于 $x$,所以 $\hat{F}_5(x) = 5/5 = 1$。

我们可以看到,在 $x=2.5$ 处,函数值从 $0$ 跳跃到 $0.4$,跳跃幅度为 $0.4=2/5$,因为有两个观测值为 $2.5$。在 $x=4.1$ 处,跳跃幅度为 $1/5$。

## 理论意义与重要定理

经验分布函数不仅是一个实用的计算工具,更具有深刻的理论基础。

### 作为估计量的性质

对于任意一个固定的点 $x$,$\hat{F}_n(x)$ 是真实值 $F(x)$ 的一个{{{点估计量}}}。我们可以考察其统计性质: $\sum_{i=1}^n I(X_i \le x)$ 服从一个参数为 $(n, p)$ 的{{{二项分布}}},其中成功概率 $p = P(X_i \le x) = F(x)$。 因此,$\hat{F}_n(x) = \frac{1}{n} \times (\text{二项分布随机变量})$。

* 无偏性 (Unbiasedness):$\hat{F}_n(x)$ 是 $F(x)$ 的一个{{{无偏估计量}}}。 $$ E[\hat{F}_n(x)] = E\left[\frac{1}{n}\sum_{i=1}^n I(X_i \le x)\right] = \frac{1}{n}\sum_{i=1}^n E[I(X_i \le x)] = \frac{1}{n}\sum_{i=1}^n P(X_i \le x) = \frac{1}{n} \cdot nF(x) = F(x) $$ * 一致性 (Consistency):根据{{{大数定律}}} (Law of Large Numbers),当样本量 $n \to \infty$ 时,样本均值会收敛于期望值。因此,对于任意固定的 $x$,$\hat{F}_n(x)$ 依概率收敛于 $F(x)$。 $$ \hat{F}_n(x) \xrightarrow{p} F(x) \quad \text{as } n \to \infty $$

### 格利文科-坎泰利定理 (Glivenko-Cantelli Theorem)

这是一个更强的结论,被称为“统计学的基本定理”。它指出,$\hat{F}_n(x)$ 的收敛不仅是逐点发生的,而且是在整个实数轴上一致收敛的。

$$ \sup_{x \in \mathbb{R}} |\hat{F}_n(x) - F(x)| \xrightarrow{a.s.} 0 \quad \text{as } n \to \infty $$

其中 $\sup$ 表示上确界,$\xrightarrow{a.s.}$ 表示几乎必然收敛。该定理保证了当样本量足够大时,整个经验分布函数的图形会均匀地逼近真实的累积分布函数图形。这为使用EDF替代真实CDF的许多统计方法提供了理论依据。

## 应用

经验分布函数是现代统计推断的基石之一。

* 拟合优度检验 (Goodness-of-Fit Tests): EDF是多种非参数检验的基础,用于检验样本数据是否来自于某个特定的理论分布。 * {{{柯尔莫哥洛夫-斯米尔诺夫检验}}} (Kolmogorov-Smirnov test): 该检验的统计量正是基于 $\sup_{x}|\hat{F}_n(x) - F_0(x)|$,即经验分布函数与假设的理论分布函数 $F_0(x)$ 之间的最大垂直距离。 * {{{安德森-达令检验}}} (Anderson-Darling test)Cramér-von Mises检验: 这些是K-S检验的变体,它们对分布函数差异的加权方式不同,通常在检验分布的尾部时更为敏感。

* 自助法 (Bootstrap): {{{自助法}}}是一种强大的重抽样技术,它通过从原始样本中反复抽样来模拟{{{抽样分布}}}。在最常见的形式中,自助法正是从经验分布 $\hat{F}_n$ 中进行抽样,即等概率地从原始样本点 $\{X_1, \ldots, X_n\}$ 中有放回地抽取。

* 计算样本分位数: 样本{{{分位数}}} (Quantiles),如中位数、四分位数等,可以从经验分布函数中直接获得或进行插值计算。