ARTICLE

经验概率分布

经验概率分布 (Empirical Probability Distribution) 经验概率分布 (Empirical Probability Distribution),亦称经验测度 (Empirical Measure),是从样本数据直接构造的一种离散概率分布。与经验分布函数 (EDF) 侧重累积分布不同,经验概率分布关注的是概率测度本身——它在每个

浏览 0 更新 2025-10-26

经验概率分布 (Empirical Probability Distribution)

经验概率分布 (Empirical Probability Distribution),亦称经验测度 (Empirical Measure),是从样本数据直接构造的一种离散概率分布。与经验分布函数 (EDF) 侧重累积分布不同,经验概率分布关注的是概率测度本身——它在每个样本观测值上赋予相等的概率质量 1/n1/n,从而形成对总体概率分布的非参数估计。这一构造是即插即用原理自助法等现代统计方法论的基石,其思想可追溯至概率论诞生之初以频率近似概率的朴素直觉。

形式定义

X1,X2,,XnX_1, X_2, \ldots, X_n 为来自总体概率分布 PP(未知)的独立同分布样本,定义在可测空间 (X,B)(\mathcal{X}, \mathcal{B}) 上。经验概率分布 PnP_n 是一个离散概率测度,对于任意可测集 ABA \in \mathcal{B}

Pn(A)=1ni=1nI(XiA)P_n(A) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \in A)

其中 I()I(\cdot)指示函数。等价地,PnP_n 可写为狄拉克测度的加权和:

Pn=1ni=1nδXiP_n = \frac{1}{n} \sum_{i=1}^{n} \delta_{X_i}

δXi\delta_{X_i} 是在点 XiX_i 处赋予全部质量的退化分布。这一表达式清晰地揭示了经验概率分布的构造:将每个样本点视为一个确定性的原子,并为每个原子分配相等的权重 1/n1/n。若同一值出现 kk 次,则该点处的概率质量为 k/nk/n

与经验分布函数的关系

经验概率分布 PnP_n经验分布函数 Fn(x)F_n(x) 是同一枚硬币的两面。EDF 是 PnP_n 在实数轴上的累积形式

Fn(x)=Pn((,x])=1ni=1nI(Xix)F_n(x) = P_n((-\infty, x]) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \le x)

在统计计算中,对 PnP_n 的积分自动退化为样本平均:对于任意函数 gggdPn=1ni=1ng(Xi)\int g \, dP_n = \frac{1}{n} \sum_{i=1}^{n} g(X_i)。这一恒等式是经验概率分布操作性的核心——它将抽象的积分计算转化为简单的算术平均。

核心性质

经验概率分布 PnP_n 具备以下理论和计算性质:

  • 矩估计PnP_n 的期望为样本均值 EPn[X]=Xˉn=1nXiE_{P_n}[X] = \bar{X}_n = \frac{1}{n} \sum X_i,方差为样本方差(分母 nn 的情形)VarPn(X)=1n(XiXˉn)2\operatorname{Var}_{P_n}(X) = \frac{1}{n} \sum (X_i - \bar{X}_n)^2。这体现了一个根本事实:样本矩就是经验分布矩。
  • 弱收敛:由格利文科-坎泰利定理PnP_n 几乎必然弱收敛到真实分布 PP。对于任意有界连续函数 gggdPngdP\int g \, dP_n \to \int g \, dP a.s.,这一性质为所有基于经验分布的统计推断提供了渐近保证。
  • 最大似然性:在非参数设定下,PnP_n 是总体分布的非参数最大似然估计量 (NPMLE)。在所有可能的分布中,经验概率分布使得观测到当前样本的似然函数达到最大——将概率质量集中于已观测到的点是最"经济"的解释数据的方式。
  • 充分性次序统计量对于 PnP_n 是充分的。经验概率分布仅依赖于观测值的大小关系而非其原始顺序,这与次序统计量携带了所有关于总体分布的样本信息这一事实完全一致。

即插即用原理

经验概率分布是即插即用原理的数学载体。许多总体参数可表示为分布 PP 的泛函 θ=T(P)\theta = T(P)——如均值 T(P)=xdPT(P) = \int x \, dP、分位数 T(P)=inf{t:P((,t])p}T(P) = \inf\{t: P((-\infty, t]) \ge p\}、方差 T(P)=(xμ)2dPT(P) = \int (x - \mu)^2 dP 等。将未知的 PP 替换为 PnP_n 即得估计量:

θ^n=T(Pn)\hat{\theta}_n = T(P_n)

这一范式统一了几乎所有经典估计量:样本均值、样本分位数、样本方差、基尼系数的样本版本等,均为该原理的特例。其魅力在于只需一个统一的替换操作,无需为每个参数单独设计估计方法。

自助法的理论基础

自助法 (Bootstrap) 的全部合理性建立在经验概率分布之上。Efron (1979) 的核心洞察是:自助法从原始样本中有放回地抽取 BB 个容量为 nn 的重抽样样本,这一操作在数学上等价于从 PnP_n 中独立抽取自助样本 X1,,XnX_1^*, \ldots, X_n^*。统计量 θ^\hat{\theta} 的自助分布即为 θ^=T(Pn)\hat{\theta}^* = T(P_n^*)PnP_n 下的抽样分布。借助计算机的重复模拟,我们无需依赖大样本正态近似即可获得标准误、置信区间和假设检验的 pp 值。

经验似然

经验概率分布的一个深刻推广是 经验似然 (Empirical Likelihood),由 Owen (1988, 2001) 系统发展。其核心思想是:不对总体分布设定参数形式,而是在经验概率分布的框架内进行似然比推断。具体而言,经验似然允许样本点的权重偏离均匀的 1/n1/n,变为 pip_i(满足 pi=1,pi>0\sum p_i = 1, p_i > 0),然后在矩约束 pig(Xi,θ)=0\sum p_i \, g(X_i, \theta) = 0 下最大化多项似然 pi\prod p_i。由此构造的经验似然比统计量渐近服从卡方分布,可构造无需估计方差的置信区域。与自助法相比,经验似然具有变换不变性、无需重抽样和 Bartlett 可校正性等优势,在经济学中的广义矩方法 (GMM) 框架下尤为流行。

离散性的局限与补救

经验概率分布的根本局限在于其离散性:即使总体分布 PP 是绝对连续的,PnP_n 仍然只在其支撑集(即观测到的 nn 个点)上赋予概率质量。这意味着 PnP_n 不能为从未出现过的值赋予正概率,对分布尾部的推断能力也受到样本覆盖范围的严格限制。这一局限在极值理论和风险管理的尾部风险估计中尤为突出。补救策略包括:通过核密度估计光滑化 PnP_n 以获得连续密度估计;采用极值理论中的广义帕累托分布对尾部建模以超越样本极值;以及在贝叶斯非参数框架下使用狄利克雷过程混合模型,将离散的经验分布平滑为连续的后验估计。

与相关概念的联系

经验概率分布与核密度估计的关系可精确表述为卷积:核密度估计 f^h(x)=1nhK(xXih)\hat{f}_h(x) = \frac{1}{nh} \sum K(\frac{x-X_i}{h}) 恰恰是 PnP_n 与核函数 KK(经尺度调整)的卷积,即先构造经验测度再以带宽 hh 进行光滑化。此外,经验概率分布是经验过程理论的研究起点——中心化的经验测度 n(PnP)\sqrt{n}(P_n - P) 在适当条件下收敛至高斯过程,这为构造函数级别的置信带和拟合优度检验提供了严格框架。由Vapnik-Chervonenkis理论可知,当函数类具有有限 VC 维时,经验过程的一致收敛速度可达 O(n1/2)O(n^{-1/2}) 阶,这确保了在高维或复杂模型中以 PnP_n 替代 PP 的合法性。在贝叶斯统计中,若以狄利克雷过程作为先验,其后验均值恰为经验分布与先验基分布的加权平均 nn+αPn+αn+αP0\frac{n}{n+\alpha}P_n + \frac{\alpha}{n+\alpha}P_0,精确刻画了先验信息与数据信息在贝叶斯更新中的融合方式。