ARTICLE

经验分布

经验分布 (Empirical Distribution) 经验分布(Empirical Distribution),也称经验分布函数(Empirical Distribution Function, EDF),是数理统计中由样本数据直接构造的概率分布估计。对于一组来自总体 F 的独立同分布样本,经验分布函数将每个数据点等权重地赋予概率质量 1/n,从而形成

浏览 0 更新 2026-05-26

经验分布 (Empirical Distribution)

经验分布(Empirical Distribution),也称经验分布函数(Empirical Distribution Function, EDF),是数理统计中由样本数据直接构造的概率分布估计。对于一组来自总体 FF 的独立同分布样本,经验分布函数将每个数据点等权重地赋予概率质量 1/n1/n,从而形成对真实分布的非参数近似。经验分布函数是非参数统计中最基础的估计量,也是格里文科-坎泰利定理所保证的一致估计对象。

给定独立同分布样本 X1,X2,,XnX_1, X_2, \ldots, X_n,经验分布函数定义为:

Fn(x)=1ni=1n1{Xix}F_n(x) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{X_i \le x\}}

其中 1{}\mathbf{1}_{\{\cdot\}}指示函数,当条件成立时取1,否则取0。该定义的直观含义为,在任意实数 xx 处,Fn(x)F_n(x) 等于样本中小于等于 xx 的观测数量所占比例。经验分布函数是一个阶梯函数,在每个样本点处跳跃 1/n1/n。与参数方法不同,经验分布不依赖任何分布假设,完全由数据驱动。

基本性质

经验分布函数具有优良的统计性质。对任意固定的 xxFn(x)F_n(x)F(x)F(x) 的无偏估计量:E[Fn(x)]=F(x)E[F_n(x)] = F(x)。其方差为 F(x)(1F(x))/nF(x)(1-F(x))/n,随样本量增加而趋于零。由中心极限定理n(Fn(x)F(x))\sqrt{n}(F_n(x) - F(x)) 渐近服从正态分布。

更为重要的是,格里文科-坎泰利定理(Glivenko-Cantelli Theorem)确立了经验分布函数的一致收敛性:当样本量趋于无穷时,supxRFn(x)F(x)\sup_{x \in \mathbb{R}} |F_n(x) - F(x)| 几乎必然收敛于0。该定理表明,经验分布函数不仅在逐点意义上是一致的,而且在一致范数下也收敛,是非参数置信带的统计理论基础。

应用:自助法与KS检验

经验分布函数在Bootstrap方法中扮演核心角色。自助法的基本思想是从经验分布中进行重抽样来近似抽样分布,而非假设特定参数模型。从经验分布中抽取重抽样样本等价于从原样本中进行有放回抽样,从而估计统计量的变异性。

Kolmogorov-Smirnov检验(KS检验)直接利用经验分布函数来检验数据是否来自特定分布。检验统计量为经验分布函数与假设分布函数之间的最大绝对偏差:

Dn=supxFn(x)F0(x)D_n = \sup_x |F_n(x) - F_0(x)|

该统计量在 H0H_0 下的分布与 F0F_0 无关,仅取决于样本量 nn,因此KS检验是分布自由的。

经验分布函数作为最直观的非参数分布估计方法,在探索性数据分析、模型诊断和稳健统计推断中发挥着基础性作用。它不预设任何参数形式,使统计推断能够从数据本身的特征出发,而非受到分布假设的约束。