ARTICLE

柯尔莫哥洛夫-斯米尔诺夫定理

柯尔莫哥洛夫-斯米尔诺夫定理 (Kolmogorov-Smirnov Theorem) 柯尔莫哥洛夫-斯米尔诺夫定理是概率论与数理统计中关于经验分布函数收敛性的核心定理,由苏联数学家安德雷·柯尔莫哥洛夫 (Andrey Kolmogorov) 于1933年提出,后由斯米尔诺夫 (Nikolai Smirnov) 于1939年推广至双样本情形。该定理揭示了经验

浏览 0 更新 2025-12-23

柯尔莫哥洛夫-斯米尔诺夫定理 (Kolmogorov-Smirnov Theorem)

柯尔莫哥洛夫-斯米尔诺夫定理是概率论与数理统计中关于经验分布函数收敛性的核心定理,由苏联数学家安德雷·柯尔莫哥洛夫 (Andrey Kolmogorov) 于1933年提出,后由斯米尔诺夫 (Nikolai Smirnov) 于1939年推广至双样本情形。该定理揭示了经验分布函数与真实分布函数之间最大偏差的渐近分布,为 柯尔莫哥洛夫-斯米尔诺夫检验 提供了严格的数学基础,同时也是 经验过程理论 的奠基性成果。

定理的数学表述

X1,X2,,XnX_1, X_2, \ldots, X_n 为来自连续分布函数 F(x)F(x) 的独立同分布随机变量,其经验分布函数定义为:

Fn(x)=1ni=1n1{Xix},xRF_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{\{X_i \leq x\}}, \quad x \in \mathbb{R}

其中 1{}\mathbf{1}_{\{\cdot\}} 为示性函数。定义统计量:

Dn=supxRFn(x)F(x)D_n = \sup_{x \in \mathbb{R}} \left| F_n(x) - F(x) \right|

定理一(格里汶科-坎泰利定理):当 nn \to \infty 时,Dn0D_n \to 0 以概率 1 成立,即:

P(limnDn=0)=1P\left(\lim_{n\to\infty} D_n = 0\right) = 1

该结果保证经验分布函数几乎必然一致收敛于真实分布函数,是经验过程理论中最早的大数定律之一。

定理二(柯尔莫哥洛夫定理):若 FF 为连续分布,则标准化统计量 nDn\sqrt{n} D_n 的极限分布与 FF 的具体形式无关,其极限分布函数为:

limnP(nDnx)=12k=1(1)k1e2k2x2,x>0\lim_{n\to\infty} P\left(\sqrt{n} D_n \leq x\right) = 1 - 2\sum_{k=1}^{\infty} (-1)^{k-1} e^{-2k^2 x^2}, \quad x > 0

该级数表达式来源于雅可比 theta 函数的热核展开,其收敛速度极快,在实际计算中通常取前 4--5 项即可获得高精度近似。这一极限分布被称为 柯尔莫哥洛夫分布 (Kolmogorov Distribution)。

斯米尔诺夫的双样本推广

1939年,斯米尔诺夫将上述定理推广至双样本比较情形。设 FnF_nGmG_m 分别为来自两个独立连续总体(分布函数分别为 FFGG)的经验分布函数,定义:

Dn,m=supxRFn(x)Gm(x)D_{n,m} = \sup_{x \in \mathbb{R}} \left| F_n(x) - G_m(x) \right|

则当 F=GF = Gn,mn, m \to \infty 满足 nn+mλ(0,1)\frac{n}{n+m} \to \lambda \in (0,1) 时:

nmn+mDn,mdK\sqrt{\frac{nm}{n+m}}\, D_{n,m} \xrightarrow{d} K

其中 KK 服从柯尔莫哥洛夫分布。这一结果使该定理从单样本拟合优度检验自然延伸至两个独立样本是否同分布的推断问题。

与布朗桥的联系

柯尔莫哥洛夫-斯米尔诺夫定理具有深刻的随机过程背景。考虑经验过程 Gn(t)=n[Fn(F1(t))t]\mathbb{G}_n(t) = \sqrt{n}[F_n(F^{-1}(t)) - t],其中 t[0,1]t \in [0,1]。当 nn \to \infty 时,Gn\mathbb{G}_n 在 Skorokhod 空间 D[0,1]D[0,1] 上弱收敛于 布朗桥 (Brownian Bridge) B(t)\mathbb{B}(t) ——一个满足 B(0)=B(1)=0\mathbb{B}(0) = \mathbb{B}(1) = 0 且协方差为 Cov[B(s),B(t)]=min(s,t)st\mathrm{Cov}[\mathbb{B}(s), \mathbb{B}(t)] = \min(s,t) - st 的高斯过程。利用连续映射定理,可得:

nDn=supt[0,1]Gn(t)dsupt[0,1]B(t)\sqrt{n} D_n = \sup_{t \in [0,1]} \left| \mathbb{G}_n(t) \right| \xrightarrow{d} \sup_{t \in [0,1]} \left| \mathbb{B}(t) \right|

因此,柯尔莫哥洛夫分布本质上就是布朗桥绝对上确界的分布。这一联系不仅揭示了该定理的概率论根源,也为通过布朗运动模拟进行统计推断提供了理论依据。

定理的意义与影响

柯尔莫哥洛夫-斯米尔诺夫定理的意义远超其作为检验工具的应用范畴。

首先,它是分布无关性 (Distribution-Free) 的典范——极限分布不依赖于底层总体分布 FF 的具体形式,仅需连续性假设。这一性质使得基于该定理的统计方法具有广泛的适用性,无需对数据分布形态做出强假设。

其次,该定理开创了经验过程理论这一数学分支。格里汶科-坎泰利定理是经验过程的函数型大数定律,而柯尔莫哥洛夫定理则是其对应的函数型中心极限定理。1970年代后,达德利 (Dudley) 和金拉 (Giné) 等人将这一框架推广至更一般的函数空间,建立了 Donsker 定理和一致中心极限定理,成为现代非参数统计和机器学习理论的核心工具。

最后,该定理在统计推断的哲学层面具有重要意义:它量化了"用经验逼近真实"的收敛速率,证明经验分布函数与真实分布函数的最大偏差以 Op(n1/2)O_p(n^{-1/2}) 的速度衰减。这一速率在非参数统计中具有最优性,无法被任何不附加额外假设的方法所超越。

与相关定理的关系

柯尔莫哥洛夫-斯米尔诺夫定理在统计理论中处于枢纽位置,与多个重要定理存在密切联系:

  • Berry--Esseen 定理:后者描述了独立同分布样本均值向正态分布收敛的速率,而柯尔莫哥洛夫-斯米尔诺夫定理描述了整个分布函数(而非仅其矩)的收敛行为,两者从不同维度刻画了经验分布对总体的逼近。
  • 库伊珀定理:针对圆形数据(如角度变量),库伊珀 (Kuiper, 1960) 提出了 Vn=supx[Fn(x)F(x)]+supx[F(x)Fn(x)]V_n = \sup_x[F_n(x)-F(x)] + \sup_x[F(x)-F_n(x)] 统计量,其极限分布在旋转变换下具有不变性。
  • Donsker 定理:这是柯尔莫哥洛夫-斯米尔诺夫定理的现代抽象形式——它将经验过程在 Skorokhod 空间上的弱收敛统一为一般函数的泛函中心极限定理,是当代经验过程理论的基石。

计算与数值近似

柯尔莫哥洛夫-斯米尔诺夫定理中极限分布函数的计算可通过截断级数完成。对于给定的 x>0x > 0,定义:

K(x)=12k=1(1)k1e2k2x2K(x) = 1 - 2\sum_{k=1}^{\infty} (-1)^{k-1} e^{-2k^2 x^2}

xx 中等大小(如 0.5<x<2.50.5 < x < 2.5)时,取前 4 项即可得到误差小于 10810^{-8} 的数值结果。对于 x>2.5x > 2.5 的情形,可取首项近似:K(x)12e2x2K(x) \approx 1 - 2e^{-2x^2}。当 x<0.5x < 0.5 时,该级数的收敛速度减慢,此时可借助互补误差函数或数值积分方法计算。现代统计软件中,R 的 \verb|ks.test| 和 Python 的 \verb|scipy.stats.kstest| 均内置了高效的数值实现。

历史注记

1933年,柯尔莫哥洛夫在发表《概率论基础》的同一年,于意大利《精算师学院期刊》(Giornale dell'Istituto Italiano degli Attuari) 上发表了一篇仅四页的短文《论经验分布函数的渐近确定》(Sulla determinazione empirica di una legge di distribuzione),首次推导出经验过程上确界的极限分布。这篇精练的论文标志着经验过程理论的诞生。六年后,斯米尔诺夫将单样本结果推广至双样本情形,并给出了完整的证明。1948年,费勒 (Feller) 简化了证明并修正了原推导中的若干细节,使定理得以在更广泛的学术圈内传播。1956年,杜布 (Doob) 借助布朗运动的强马氏性,从随机过程角度重新诠释了该定理,为后续的 Donsker 定理和泛函中心极限定理铺平了道路。