ARTICLE

经验分布函数

经验分布函数 (Empirical Distribution Function) 经验分布函数 (Empirical Distribution Function, EDF) 是统计学和概率论中最基础的非参数工具之一。它利用观测到的样本数据，直接构造一个对总体累积分布函数 (CDF) 的估计，而无需对总体的分布形式做任何假设。其核心思想极为朴素：以样本中观测值

浏览 90 更新 2025-10-26

经验分布函数 (Empirical Distribution Function)

经验分布函数 (Empirical Distribution Function, EDF) 是统计学和概率论中最基础的非参数工具之一。它利用观测到的样本数据，直接构造一个对总体累积分布函数 (CDF) 的估计，而无需对总体的分布形式做任何假设。其核心思想极为朴素：以样本中观测值的经验频率替代总体的理论概率。对于任意实数 $x$ ，我们想知道随机变量不超过 $x$ 的概率 $F(x) = P(X \le x)$ ，在仅有样本信息的情况下，最自然的估计就是计算样本中小于等于 $x$ 的观测值所占的比例。这一简单的构造使 EDF 成为连接数据与分布的桥梁，广泛用于非参数统计、拟合优度检验和重抽样方法中。

形式定义与构造细节

设 $X_1, X_2, \ldots, X_n$ 是从具有未知累积分布函数 $F(x)$ 的总体中抽取的独立同分布 (i.i.d.) 随机样本，则经验分布函数 $F_n(x)$ 定义为：

F_n(x) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \le x)

其中 $I(\cdot)$ 是指示函数：当括号内条件成立时取值为 1，否则为 0。换言之， $F_n(x)$ 就是样本中不超过 $x$ 的观测值个数除以样本总量 $n$ 。这一构造等价于为每个样本点赋予相等的权重 $1/n$ ，形成一个离散的概率分布，其累积和即为 EDF。

EDF 具有以下核心性质：

阶梯函数： $F_n(x)$ 的图像是不连续的阶梯状曲线，跳跃仅发生在样本观测值处。若某个值在样本中唯一出现，跳跃幅度为 $1/n$ ；若同一值出现 $k$ 次，则跳跃幅度为 $k/n$ 。
右连续性：对所有 $x$ ， $\lim_{h \to 0^+} F_n(x+h) = F_n(x)$ ，这与理论 CDF 的定义保持一致。
有界性： $F_n(x)$ 取值于 $\{0, 1/n, 2/n, \ldots, 1\}$ ，且 $\lim_{x \to -\infty} F_n(x) = 0$ ， $\lim_{x \to \infty} F_n(x) = 1$ 。

构造示例：设样本量为 5，观测值为 $\{3.7, 8.1, 2.2, 5.0, 2.2\}$ 。排序得 $\{2.2, 2.2, 3.7, 5.0, 8.1\}$ ，据此定义 $F_5(x)$ ：当 $x < 2.2$ 时 $F_5(x) = 0$ ； $2.2 \le x < 3.7$ 时（含两个 2.2） $F_5(x) = 0.4$ ； $3.7 \le x < 5.0$ 时 $F_5(x) = 0.6$ ； $5.0 \le x < 8.1$ 时 $F_5(x) = 0.8$ ； $x \ge 8.1$ 时 $F_5(x) = 1$ 。该分段函数直观展示了 EDF 在每个观测值处向上跳跃 $1/n$ 或 $k/n$ 的阶梯特征，且在整个实数轴上构成一个从 0 到 1 的单调非降右连续函数。

理论保证：三大支柱

EDF 之所以能成为统计推断的合法工具，依赖于以下三个层层递进的理论结果。

1. 逐点无偏性与一致性：对任意固定点 $x$ ，指示函数 $I(X_i \le x)$ 是成功概率为 $F(x)$ 的伯努利随机变量，其期望为 $F(x)$ ，因此 $E[F_n(x)] = F(x)$ ，EDF 是 $F(x)$ 的无偏估计量。进一步，由大数定律，当 $n \to \infty$ 时 $F_n(x)$ 依概率收敛到 $F(x)$ ，EDF 是一致估计量。这保证了在每一点上，只要样本足够大，EDF 就能任意逼近真实值。此外，由中心极限定理可知 $\sqrt{n}(F_n(x) - F(x))$ 渐近服从正态分布 $N(0, F(x)(1-F(x)))$ ，这为逐点置信区间的构造提供了依据。

2. 格利文科-坎泰利定理 (Glivenko-Cantelli)：该定理将逐点收敛提升为一致收敛——EDF 与真实 CDF 之间的最大偏差（即上确界距离）几乎必然趋于零：

\sup_{x \in \mathbb{R}} |F_n(x) - F(x)| \xrightarrow{a.s.} 0 \quad (n \to \infty)

其中 $\xrightarrow{a.s.}$ 代表几乎必然收敛，是一种极强的收敛模式。该定理的深远意义在于：它不仅保证 EDF 在每一点上逼近 CDF，而且保证了整体形状的逼近——大样本下 EDF 的阶梯函数图像将非常接近真实的 CDF 光滑曲线。这为我们在一切统计问题中以 EDF 替代未知 CDF 提供了坚实的理论根基，也是所有基于 EDF 的统计方法（如 KS 检验、自助法）的正当性来源。可以说，如果逐点收敛是"每一棵树都看到了"，格利文科-坎泰利定理则保证了"整个森林也是正确的"。

3. DKW 不等式 (Dvoretzky–Kiefer–Wolfowitz)：不同于前两者的渐近性质，DKW 不等式给出了有限样本下 EDF 与 CDF 偏离的概率上界：

P\left( \sup_{x \in \mathbb{R}} |F_n(x) - F(x)| > \epsilon \right) \le 2e^{-2n\epsilon^2}

该不等式的直接应用是构造 CDF 的置信带：选定置信水平 $1-\alpha$ ，令 $\epsilon = \sqrt{\frac{1}{2n} \ln\frac{2}{\alpha}}$ ，则以 $F_n(x) \pm \epsilon$ 为界的带状区域将以不低于 $1-\alpha$ 的概率包含整个真实 CDF 曲线。这是一个统一的、函数级别的置信区间，远比逐点置信区间更强——我们可以在同一张图上画出 EDF 和置信带，直观地判断某个假设的理论分布是否落在带内。

应用领域

EDF 是多种统计方法的理论或计算基础：

拟合优度检验：柯尔莫哥洛夫-斯米尔诺夫检验 (KS 检验) 直接计算 $D_n = \sup_x |F_n(x) - F_0(x)|$ 作为检验统计量，判断样本是否来自某个指定的理论分布 $F_0$ 。克拉默-冯·米塞斯检验和安德森-达林检验则考虑 EDF 与理论 CDF 之间偏差的加权平方积分，后者对分布尾部的偏离赋予更高权重，在金融风险管理中尤为常用。
自助法 (Bootstrap)：自助法的核心操作是从原始样本中有放回地重复抽样，以模拟某个统计量的抽样分布。这一过程在数学上等价于从 EDF $F_n$ 所定义的离散分布中进行独立抽样。EDF 因此是整个自助法范式的理论基石，Efron 于 1979 年创立自助法时正是以 EDF 为出发点。
即插即用原理 (Plug-in Principle)：许多总体参数可表示为分布函数 $F$ 的泛函 $\theta = T(F)$ 。例如总体均值为 $\int x \, dF(x)$ ，总体分位数为 $F^{-1}(p)$ 。通过将未知的 $F$ 替换为 EDF $F_n$ ，得到估计 $\hat{\theta} = T(F_n)$ 。样本均值是 $F_n$ 的均值，样本分位数是 $F_n$ 的分位数——这些最常用的统计量恰是即插即用原理的体现。该原理统一了众多估计量的构造逻辑。
数据可视化：EDF 图提供比直方图更精确的数据分布视图，完整保留每个数据点的信息，避免了分箱宽度和起始位置选择带来的主观偏差。

EDF 还与随机占优分析密切相关——一阶随机占优可用 CDF 的位置关系定义，经验分析中直接比较两组样本的 EDF 即可实现非参数占优检验。此外，核密度估计可理解为 EDF 导数（即密度函数）的光滑版本，极值理论中 EDF 的尾部行为则用于推断极端事件的发生概率。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。