ARTICLE

格里文科-坎泰利定理

格里文科-坎泰利定理 (Glivenko-Cantelli Theorem) 格里文科-坎泰利定理(Glivenko-Cantelli Theorem)是概率论与数理统计中基础且极其重要的定理,描述经验分布函数(EDF)与其对应的真实累积分布函数(CDF)之间的渐近关系。该定理断言,随着样本量增加,经验分布函数将一致地且几乎必然地收敛于真实的总体分布函数。因

浏览 3 更新 2025-12-03

格里文科-坎泰利定理 (Glivenko-Cantelli Theorem)

格里文科-坎泰利定理(Glivenko-Cantelli Theorem)是概率论数理统计中基础且极其重要的定理,描述经验分布函数(EDF)与其对应的真实累积分布函数(CDF)之间的渐近关系。该定理断言,随着样本量增加,经验分布函数将一致地几乎必然地收敛于真实的总体分布函数。因确立了用样本推断总体的数学基础,有时被称为统计学的基本定理(The Fundamental Theorem of Statistics)。

定理表述与证明思路

X1,,XnX_1, \ldots, X_n独立同分布随机变量序列,服从累积分布函数 F(x)=P(Xx)F(x) = P(X \le x)。经验分布函数基于n个样本观测值定义为 Fn(x)=(1/n)i=1n1{Xix}F_n(x) = (1/n)\sum_{i=1}^n \mathbf{1}\{X_i \le x\},即不超过x的观测值占比,为跳跃型阶梯函数,每增加一个数据点函数跳跃 1/n1/n。格里文科-坎泰利定理的经典形式为,当 nn \to \inftysupxRFn(x)F(x)0\sup_{x \in \mathbb{R}} |F_n(x) - F(x)| \to 0 几乎必然,即经验分布函数与真实分布函数的最大偏差在样本量无限时趋于零,不仅逐点收敛,而是对x的一致收敛。

定理证明的核心思路利用强大数定律DKW不等式。对任意固定的x,Fn(x)F_n(x) 是n个独立伯努利指示函数的均值,由强大数定律 Fn(x)F(x)F_n(x) \to F(x) 几乎必然(逐点收敛)。但逐点收敛不保证对所有x同时成立,有限多个点的一致控制可通过Borel-Cantelli引理和分布的格利文科-坎泰利类性质获得,一致收敛保证了经验分布函数在全支撑上的全局逼近质量。

统计学意义与应用

格里文科-坎泰利定理为统计推断的核心逻辑提供了坚实的数学基础:当样本足够大时,用EDF替代真实CDF是可靠的,样本数据所揭示的分布形状将越来越接近总体真实形态。该定理在非参数统计中具有基础地位。Kolmogorov-Smirnov检验(单样本KS检验)直接以 supxFn(x)F0(x)\sup_x |F_n(x) - F_0(x)| 为检验统计量,该定理确保在原假设下该统计量收敛于零,配合DKW不等式给出有限样本的尾部界限,构成KS检验的理论保证。在自助法(Bootstrap)中,EDF作为总体分布的非参数估计被反复重采样,格里文科-坎泰利定理确保大样本下自助法分布的渐近有效性。在贝叶斯非参数中,Dirichlet过程等先验以该定理为基础保证了后验一致性。格里文科-坎泰利定理在统计理论中的核心地位,在于将样本到总体的推理从"近似"提升至"保证"的层次,为统计推断的一致性提供了可证明的数学承诺。