依分布收敛 (Convergence in Distribution)
依分布收敛 (Convergence in Distribution),又称为 弱收敛 (Weak Convergence) 或 依法收敛 (Convergence in Law),是 概率论 和 数理统计 中描述随机变量序列行为的一个核心概念。它是不同类型 随机变量 收敛形式中最"弱"的一种,但其应用极为广泛,尤其是在大样本理论和统计推断中。
依分布收敛关注的不是随机变量序列本身的值是否趋于某个确定值,而是这些随机变量的 累积分布函数 (Cumulative Distribution Function, CDF) 的序列是否趋于某个极限分布的 CDF。
形式化定义
令 {Xn}n=1∞ 为一个 随机变量 序列,其对应的 累积分布函数 序列为 {Fn(x)}n=1∞,其中 Fn(x)=P(Xn≤x)。令 X 为另一个随机变量,其累积分布函数为 F(x)=P(X≤x)。
我们称序列 {Xn} 依分布收敛 于 X,记为:
XndX或Xn⇒X
如果对于 F(x) 的所有 连续点 x,都有:
n→∞limFn(x)=F(x)
关于"连续点"的说明: 这个条件非常关键。我们不要求在 F(x) 的不连续点上收敛。这是因为在离散或混合型分布的跳跃点上,即使分布的形状已经非常接近,函数值也可能存在固有的差异。
示例:考虑一个常数随机变量序列 Xn=1/n。当 n→∞ 时,Xn 的值趋近于 0。极限随机变量是 X=0。
- Xn 的 CDF 为 Fn(x)={01if x<1/nif x≥1/n。
- 极限随机变量 X=0 的 CDF 为 F(x)={01if x<0if x≥0。
- 极限分布 F(x) 在 x=0 点是不连续的。
- 对于任何 x>0,当 n 足够大时,有 1/n<x,因此 limn→∞Fn(x)=limn→∞1=1=F(x)。
- 对于任何 x<0,limn→∞Fn(x)=limn→∞0=0=F(x)。
- 因此,对于 F(x) 的所有连续点(即所有 x=0),limn→∞Fn(x)=F(x) 成立。根据定义,Xnd0。我们不必关心在不连续点 x=0 处的情况(在该点,limn→∞Fn(0)=0 而 F(0)=1)。
直观理解
依分布收敛的本质是,随着 n 的增大,随机变量 Xn 的 整体概率分布特征 越来越像随机变量 X 的分布特征。我们可以将其理解为:
- 从形状上看:如果画出 Xn 的 概率密度函数 (PDF) 或 概率质量函数 (PMF) 的图像,随着 n 的增加,这个图像的"形状"会越来越接近 X 的 PDF 或 PMF 的形状。
- 从概率上看:对于一个区间 (a,b],如果其端点是极限分布的连续点,那么 Xn 落入该区间的概率 P(a<Xn≤b) 会趋向于 X 落入该区间的概率 P(a<X≤b)。
- 空间无关性:值得注意的是,随机变量序列 {Xn} 和极限随机变量 X 可以定义在完全不同的 概率空间 上。定义本身只关心它们的分布函数,而不关心它们底层的随机实验。
等价定义与重要定理
除了基于 CDF 的定义,还有一些等价的、在理论和应用中非常重要的判别方法。
Portmanteau Theorem:该定理提供了一系列与依分布收敛等价的条件。其中最常用的一个是:XndX 当且仅当对于任何有界的连续函数 g:R→R,都有:
n→∞limE[g(Xn)]=E[g(X)]
这个基于期望的定义在更高等的测度论框架下是弱收敛的标准定义。
Lévy's Continuity Theorem:这是实践中证明依分布收敛最强大的工具之一。它将依分布收敛与 特征函数 (Characteristic Function) 的收敛联系起来。令 ϕn(t)=E[eitXn] 为 Xn 的特征函数,ϕ(t) 为 X 的特征函数。那么:
XndX⟺n→∞limϕn(t)=ϕ(t)∀t∈R
由于特征函数通常比分布函数更容易进行代数运算,这一定理极大地简化了许多重要极限理论的证明,例如 中心极限定理。
与其他收敛形式的关系
依分布收敛是收敛概念中最弱的一种,它与其他收敛形式有如下层级关系:
- 几乎必然收敛 (Almost Sure Convergence) ⟹ 依概率收敛 (Convergence in Probability) ⟹ 依分布收敛 (Convergence in Distribution) \[ (X_n \xrightarrow{a.s.} X) \implies (X_n \xrightarrow{p} X) \implies (X_n \xrightarrow{d} X) \]
- 反向不成立:依分布收敛通常不能推出依概率收敛。 反例:令 X 是一个服从参数为 p=0.5 的伯努利分布的随机变量,即 P(X=1)=P(X=0)=0.5。定义一个序列 Xn=1−X。 对于任意的 n,Xn 的分布与 X 完全相同(都是同样的伯努利分布)。因此,Fn(x)=F(x) 对所有 x 和 n 成立,显然 XndX。 但是,∣Xn−X∣=∣(1−X)−X∣=∣1−2X∣。当 X=0 或 X=1 时,这个差的绝对值恒为 1。它不趋向于 0,所以 Xn 不依概率收敛于 X。
- 特殊情况:如果 Xn 依分布收敛于一个 常数 c,那么它也依概率收敛于 c。 \[ X_n \xrightarrow{d} c \quad \Longleftrightarrow \quad X_n \xrightarrow{p} c \] 这是一个非常有用的结论,它在依分布收敛和依概率收敛之间建立了一座重要的桥梁。
核心应用与相关定理
依分布收敛是构建现代统计学和计量经济学理论的基石。
中心极限定理 (Central Limit Theorem, CLT):这是依分布收敛最著名的应用。它指出,在适当条件下,大量独立的随机变量之和(或均值)的分布会趋近于 正态分布。形式上,若 X1,X2,… 是 独立同分布 (i.i.d.) 的随机变量,具有均值 μ 和有限方差 σ2,则:
σ/nXˉn−μdN(0,1)
其中 Xˉn 是样本均值,N(0,1) 是标准正态分布。这一定理是进行大样本 假设检验 和构造 置信区间 的理论基础。
连续映射定理 (Continuous Mapping Theorem, CMT):该定理指出,连续函数可以保持依分布收敛的性质。如果 XndX 且函数 g 在 X 的支撑集上连续,则:
g(Xn)dg(X)
例如,若已知 ZndN(0,1),由于 g(x)=x2 是连续函数,我们可以立即得到 Zn2dχ2(1)(一个自由度为 1 的卡方分布)。
斯卢茨基定理 (Slutsky's Theorem):该定理是处理随机变量代数运算极限的强大工具,它巧妙地结合了依分布收敛和依概率收敛。若 XndX 且 Ynpc(其中 c 是一个常数),则:
- Xn+YndX+c
- XnYndcX
- Xn/YndX/c (若 c=0)
一个经典应用是证明当总体方差 σ2 未知时,学生化的样本均值在大样本下仍服从正态分布。由 CLT,我们有 n(Xˉn−μ)/σdN(0,1)。由于样本标准差 Sn 依概率收敛于 σ (Snpσ),因此 σ/Snp1。根据斯卢茨基定理:
tn=Snn(Xˉn−μ)=(σn(Xˉn−μ))⋅(Snσ)dN(0,1)⋅1=N(0,1)
这为大样本下使用 t 统计量进行推断提供了理论依据。