ARTICLE

依分布收敛

依分布收敛 (Convergence in Distribution) 依分布收敛 (Convergence in Distribution),又称为 弱收敛 (Weak Convergence) 或 依法收敛 (Convergence in Law),是 概率论 和 数理统计 中描述随机变量序列行为的一个核心概念。它是不同类型 随机变量 收敛形式中最"弱"

浏览 46 更新 2025-10-26

依分布收敛 (Convergence in Distribution)

依分布收敛 (Convergence in Distribution),又称为 弱收敛 (Weak Convergence) 或 依法收敛 (Convergence in Law),是 概率论数理统计 中描述随机变量序列行为的一个核心概念。它是不同类型 随机变量 收敛形式中最"弱"的一种,但其应用极为广泛,尤其是在大样本理论和统计推断中。

依分布收敛关注的不是随机变量序列本身的值是否趋于某个确定值,而是这些随机变量的 累积分布函数 (Cumulative Distribution Function, CDF) 的序列是否趋于某个极限分布的 CDF。

形式化定义

{Xn}n=1\{X_n\}_{n=1}^{\infty} 为一个 随机变量 序列,其对应的 累积分布函数 序列为 {Fn(x)}n=1\{F_n(x)\}_{n=1}^{\infty},其中 Fn(x)=P(Xnx)F_n(x) = P(X_n \le x)。令 XX 为另一个随机变量,其累积分布函数为 F(x)=P(Xx)F(x) = P(X \le x)

我们称序列 {Xn}\{X_n\} 依分布收敛XX,记为:

XndXXnXX_n \xrightarrow{d} X \quad \text{或} \quad X_n \Rightarrow X

如果对于 F(x)F(x) 的所有 连续点 xx,都有:

limnFn(x)=F(x)\lim_{n \to \infty} F_n(x) = F(x)

关于"连续点"的说明: 这个条件非常关键。我们不要求在 F(x)F(x) 的不连续点上收敛。这是因为在离散或混合型分布的跳跃点上,即使分布的形状已经非常接近,函数值也可能存在固有的差异。

示例:考虑一个常数随机变量序列 Xn=1/nX_n = 1/n。当 nn \to \infty 时,XnX_n 的值趋近于 0。极限随机变量是 X=0X=0

  • XnX_n 的 CDF 为 Fn(x)={0if x<1/n1if x1/nF_n(x) = \begin{cases} 0 & \text{if } x < 1/n \\ 1 & \text{if } x \ge 1/n \end{cases}
  • 极限随机变量 X=0X=0 的 CDF 为 F(x)={0if x<01if x0F(x) = \begin{cases} 0 & \text{if } x < 0 \\ 1 & \text{if } x \ge 0 \end{cases}
  • 极限分布 F(x)F(x)x=0x=0 点是不连续的。
  • 对于任何 x>0x > 0,当 nn 足够大时,有 1/n<x1/n < x,因此 limnFn(x)=limn1=1=F(x)\lim_{n \to \infty} F_n(x) = \lim_{n \to \infty} 1 = 1 = F(x)
  • 对于任何 x<0x < 0limnFn(x)=limn0=0=F(x)\lim_{n \to \infty} F_n(x) = \lim_{n \to \infty} 0 = 0 = F(x)
  • 因此,对于 F(x)F(x) 的所有连续点(即所有 x0x \ne 0),limnFn(x)=F(x)\lim_{n \to \infty} F_n(x) = F(x) 成立。根据定义,Xnd0X_n \xrightarrow{d} 0。我们不必关心在不连续点 x=0x=0 处的情况(在该点,limnFn(0)=0\lim_{n \to \infty} F_n(0) = 0F(0)=1F(0)=1)。

直观理解

依分布收敛的本质是,随着 nn 的增大,随机变量 XnX_n整体概率分布特征 越来越像随机变量 XX 的分布特征。我们可以将其理解为:

  • 从形状上看:如果画出 XnX_n概率密度函数 (PDF) 或 概率质量函数 (PMF) 的图像,随着 nn 的增加,这个图像的"形状"会越来越接近 XX 的 PDF 或 PMF 的形状。
  • 从概率上看:对于一个区间 (a,b](a, b],如果其端点是极限分布的连续点,那么 XnX_n 落入该区间的概率 P(a<Xnb)P(a < X_n \le b) 会趋向于 XX 落入该区间的概率 P(a<Xb)P(a < X \le b)
  • 空间无关性:值得注意的是,随机变量序列 {Xn}\{X_n\} 和极限随机变量 XX 可以定义在完全不同的 概率空间 上。定义本身只关心它们的分布函数,而不关心它们底层的随机实验。

等价定义与重要定理

除了基于 CDF 的定义,还有一些等价的、在理论和应用中非常重要的判别方法。

Portmanteau Theorem:该定理提供了一系列与依分布收敛等价的条件。其中最常用的一个是:XndXX_n \xrightarrow{d} X 当且仅当对于任何有界的连续函数 g:RRg: \mathbb{R} \to \mathbb{R},都有:

limnE[g(Xn)]=E[g(X)]\lim_{n \to \infty} \mathbb{E}[g(X_n)] = \mathbb{E}[g(X)]

这个基于期望的定义在更高等的测度论框架下是弱收敛的标准定义。

Lévy's Continuity Theorem:这是实践中证明依分布收敛最强大的工具之一。它将依分布收敛与 特征函数 (Characteristic Function) 的收敛联系起来。令 ϕn(t)=E[eitXn]\phi_n(t) = \mathbb{E}[e^{itX_n}]XnX_n 的特征函数,ϕ(t)\phi(t)XX 的特征函数。那么:

XndXlimnϕn(t)=ϕ(t)tRX_n \xrightarrow{d} X \quad \Longleftrightarrow \quad \lim_{n \to \infty} \phi_n(t) = \phi(t) \quad \forall t \in \mathbb{R}

由于特征函数通常比分布函数更容易进行代数运算,这一定理极大地简化了许多重要极限理论的证明,例如 中心极限定理

与其他收敛形式的关系

依分布收敛是收敛概念中最弱的一种,它与其他收敛形式有如下层级关系:

  1. 几乎必然收敛 (Almost Sure Convergence)     \implies 依概率收敛 (Convergence in Probability)     \implies 依分布收敛 (Convergence in Distribution) \[ (X_n \xrightarrow{a.s.} X) \implies (X_n \xrightarrow{p} X) \implies (X_n \xrightarrow{d} X) \]
  2. 反向不成立:依分布收敛通常不能推出依概率收敛。 反例:令 XX 是一个服从参数为 p=0.5p=0.5 的伯努利分布的随机变量,即 P(X=1)=P(X=0)=0.5P(X=1) = P(X=0) = 0.5。定义一个序列 Xn=1XX_n = 1-X。 对于任意的 nnXnX_n 的分布与 XX 完全相同(都是同样的伯努利分布)。因此,Fn(x)=F(x)F_n(x) = F(x) 对所有 xxnn 成立,显然 XndXX_n \xrightarrow{d} X。 但是,XnX=(1X)X=12X|X_n - X| = |(1-X) - X| = |1 - 2X|。当 X=0X=0X=1X=1 时,这个差的绝对值恒为 1。它不趋向于 0,所以 XnX_n 不依概率收敛于 XX
  3. 特殊情况:如果 XnX_n 依分布收敛于一个 常数 cc,那么它也依概率收敛于 cc。 \[ X_n \xrightarrow{d} c \quad \Longleftrightarrow \quad X_n \xrightarrow{p} c \] 这是一个非常有用的结论,它在依分布收敛和依概率收敛之间建立了一座重要的桥梁。

核心应用与相关定理

依分布收敛是构建现代统计学和计量经济学理论的基石。

中心极限定理 (Central Limit Theorem, CLT):这是依分布收敛最著名的应用。它指出,在适当条件下,大量独立的随机变量之和(或均值)的分布会趋近于 正态分布。形式上,若 X1,X2,X_1, X_2, \dots独立同分布 (i.i.d.) 的随机变量,具有均值 μ\mu 和有限方差 σ2\sigma^2,则:

Xˉnμσ/ndN(0,1)\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0, 1)

其中 Xˉn\bar{X}_n 是样本均值,N(0,1)N(0,1) 是标准正态分布。这一定理是进行大样本 假设检验 和构造 置信区间 的理论基础。

连续映射定理 (Continuous Mapping Theorem, CMT):该定理指出,连续函数可以保持依分布收敛的性质。如果 XndXX_n \xrightarrow{d} X 且函数 ggXX 的支撑集上连续,则:

g(Xn)dg(X)g(X_n) \xrightarrow{d} g(X)

例如,若已知 ZndN(0,1)Z_n \xrightarrow{d} N(0,1),由于 g(x)=x2g(x)=x^2 是连续函数,我们可以立即得到 Zn2dχ2(1)Z_n^2 \xrightarrow{d} \chi^2(1)(一个自由度为 1 的卡方分布)。

斯卢茨基定理 (Slutsky's Theorem):该定理是处理随机变量代数运算极限的强大工具,它巧妙地结合了依分布收敛和依概率收敛。若 XndXX_n \xrightarrow{d} XYnpcY_n \xrightarrow{p} c(其中 cc 是一个常数),则:

  1. Xn+YndX+cX_n + Y_n \xrightarrow{d} X + c
  2. XnYndcXX_n Y_n \xrightarrow{d} cX
  3. Xn/YndX/cX_n / Y_n \xrightarrow{d} X/c (若 c0c \ne 0)

一个经典应用是证明当总体方差 σ2\sigma^2 未知时,学生化的样本均值在大样本下仍服从正态分布。由 CLT,我们有 n(Xˉnμ)/σdN(0,1)\sqrt{n}(\bar{X}_n - \mu)/\sigma \xrightarrow{d} N(0,1)。由于样本标准差 SnS_n 依概率收敛于 σ\sigma (SnpσS_n \xrightarrow{p} \sigma),因此 σ/Snp1\sigma/S_n \xrightarrow{p} 1。根据斯卢茨基定理:

tn=n(Xˉnμ)Sn=(n(Xˉnμ)σ)(σSn)dN(0,1)1=N(0,1)t_n = \frac{\sqrt{n}(\bar{X}_n-\mu)}{S_n} = \left(\frac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}\right) \cdot \left(\frac{\sigma}{S_n}\right) \xrightarrow{d} N(0,1) \cdot 1 = N(0,1)

这为大样本下使用 t 统计量进行推断提供了理论依据。