ARTICLE
经验分布
经验分布 (Empirical Distribution) 经验分布(Empirical Distribution),也称经验分布函数(Empirical Distribution Function, EDF),是数理统计中由样本数据直接构造的概率分布估计。对于一组来自总体 F 的独立同分布样本,经验分布函数将每个数据点等权重地赋予概率质量 1/n,从而形成
经验分布 (Empirical Distribution)
经验分布(Empirical Distribution),也称经验分布函数(Empirical Distribution Function, EDF),是数理统计中由样本数据直接构造的概率分布估计。对于一组来自总体 的独立同分布样本,经验分布函数将每个数据点等权重地赋予概率质量 ,从而形成对真实分布的非参数近似。经验分布函数是非参数统计中最基础的估计量,也是格里文科-坎泰利定理所保证的一致估计对象。
给定独立同分布样本 ,经验分布函数定义为:
其中 为指示函数,当条件成立时取1,否则取0。该定义的直观含义为,在任意实数 处, 等于样本中小于等于 的观测数量所占比例。经验分布函数是一个阶梯函数,在每个样本点处跳跃 。与参数方法不同,经验分布不依赖任何分布假设,完全由数据驱动。
基本性质
经验分布函数具有优良的统计性质。对任意固定的 , 是 的无偏估计量:。其方差为 ,随样本量增加而趋于零。由中心极限定理, 渐近服从正态分布。
更为重要的是,格里文科-坎泰利定理(Glivenko-Cantelli Theorem)确立了经验分布函数的一致收敛性:当样本量趋于无穷时, 几乎必然收敛于0。该定理表明,经验分布函数不仅在逐点意义上是一致的,而且在一致范数下也收敛,是非参数置信带的统计理论基础。
应用:自助法与KS检验
经验分布函数在Bootstrap方法中扮演核心角色。自助法的基本思想是从经验分布中进行重抽样来近似抽样分布,而非假设特定参数模型。从经验分布中抽取重抽样样本等价于从原样本中进行有放回抽样,从而估计统计量的变异性。
Kolmogorov-Smirnov检验(KS检验)直接利用经验分布函数来检验数据是否来自特定分布。检验统计量为经验分布函数与假设分布函数之间的最大绝对偏差:
该统计量在 下的分布与 无关,仅取决于样本量 ,因此KS检验是分布自由的。
经验分布函数作为最直观的非参数分布估计方法,在探索性数据分析、模型诊断和稳健统计推断中发挥着基础性作用。它不预设任何参数形式,使统计推断能够从数据本身的特征出发,而非受到分布假设的约束。