ARTICLE

分布收敛

分布收敛 (Convergence in Distribution) 分布收敛 (Convergence in Distribution),亦称弱收敛 (Weak Convergence) 或依分布收敛 (Convergence in Law),是概率论与数理统计中最为基础且应用最广泛的收敛模式之一。它描述的是一列随机变量或随机向量的累积分布函数 (CDF)

浏览 0 更新 2026-01-05

分布收敛 (Convergence in Distribution)

分布收敛 (Convergence in Distribution),亦称弱收敛 (Weak Convergence) 或依分布收敛 (Convergence in Law),是概率论数理统计中最为基础且应用最广泛的收敛模式之一。它描述的是一列随机变量或随机向量的累积分布函数 (CDF) 逐点趋向某一极限分布的行为。与几乎必然收敛依概率收敛LpL^p 收敛不同,分布收敛不要求随机变量本身在相同的概率空间上定义,甚至不要求它们之间存在任何逐点关系——它只关心分布函数的形状趋近。

严格定义

{Xn}n=1\{X_n\}_{n=1}^{\infty} 为一列 kk 维随机向量,XX 为另一个 kk 维随机向量。令 Fn(x)=P(Xnx)F_n(x) = P(X_n \leq x)F(x)=P(Xx)F(x) = P(X \leq x) 分别为其联合累积分布函数。

XnX_n 依分布收敛XX,记作 XndXX_n \xrightarrow{d} XXnXX_n \rightsquigarrow X,当且仅当:

limnFn(x)=F(x),x 为 F 的连续点\lim_{n \to \infty} F_n(x) = F(x),\quad \forall\, x \text{ 为 } F \text{ 的连续点}

要求仅在 FF 的连续点处收敛是技术性的:在 FF 的跳跃点(即分布存在概率原子的位置),即使收敛也无需成立。以一维情形为例,若 Xn=X+1nX_n = X + \frac{1}{n}X=0X = 0 以概率 1,则 Fn(0)=P(Xn0)=P(X+1/n0)=0F_n(0) = P(X_n \leq 0) = P(X + 1/n \leq 0) = 0F(0)=1F(0) = 1,但 FFx=0x=0 处不连续(存在跳跃)。此时 Fn(0)↛F(0)F_n(0) \not\to F(0) 并不妨碍 XndXX_n \xrightarrow{d} X

在高等概率论中,分布收敛等价于:对任意有界连续函数 g:RkRg: \mathbb{R}^k \to \mathbb{R},有

limnE[g(Xn)]=E[g(X)]\lim_{n \to \infty} \mathbb{E}[g(X_n)] = \mathbb{E}[g(X)]

这一等价刻画由 Alexandroff 的 Portmanteau 定理给出,也是分布收敛得名"弱收敛"的原因——它是随机测度弱收敛(即对偶空间上的 *-弱拓扑收敛)在概率测度空间中的体现。

与其他收敛模式的关系

概率论中四种主要收敛模式的强弱关系为:

几乎必然收敛    依概率收敛    依分布收敛\text{几乎必然收敛} \;\Longrightarrow\; \text{依概率收敛} \;\Longrightarrow\; \text{依分布收敛}
Lp 收敛  (p1)    依概率收敛L^p \text{ 收敛} \;(p \geq 1) \;\Longrightarrow\; \text{依概率收敛}

具体而言:

  1. Xna.s.XX_n \xrightarrow{a.s.} X,则 XnpXX_n \xrightarrow{p} X,从而 XndXX_n \xrightarrow{d} X
  2. XnLpXX_n \xrightarrow{L^p} X,则 XnpXX_n \xrightarrow{p} X,从而 XndXX_n \xrightarrow{d} X
  3. 分布收敛不蕴含依概率收敛:令 XN(0,1)X \sim N(0,1),定义 Xn=XX_n = Xnn 为奇数,Xn=XX_n = -Xnn 为偶数。则所有 XnN(0,1)X_n \sim N(0,1),故 XndN(0,1)X_n \xrightarrow{d} N(0,1),但 (Xn,X)(X_n, X) 的联合分布不断反转,XnX_n 并不依概率收敛于 XX
  4. 唯一的例外:若极限 XX 以概率 1 为常数 cc,则分布收敛等价于依概率收敛:Xndc    XnpcX_n \xrightarrow{d} c \iff X_n \xrightarrow{p} c

等价的判别条件

分布收敛有若干等价的刻画,为理论和实证检验提供了不同的工具:

特征函数法(Lévy 连续性定理)

最经典的判别工具是 Lévy 连续性定理XndXX_n \xrightarrow{d} X 当且仅当 XnX_n 的特征函数逐点收敛于 XX 的特征函数:

φn(t)=E[eitXn]φ(t)=E[eitX],tRk\varphi_n(t) = \mathbb{E}[e^{i t' X_n}] \longrightarrow \varphi(t) = \mathbb{E}[e^{i t' X}], \quad \forall t \in \mathbb{R}^k

若进一步要求 φ(t)\varphi(t)t=0t = 0 处连续,则该极限函数自动成为某一概率分布的特征函数。这一结论在证明中心极限定理时扮演核心角色:独立同分布随机变量之和标准化后的特征函数逐点收敛于标准正态的特征函数 et2/2e^{-t^2/2}

Cramér-Wold 方法

对于多维情形,Cramér-Wold 定理 将检验降维为所有一维投影的收敛:XndXX_n \xrightarrow{d} XRk\mathbb{R}^k 中成立,当且仅当对任意 cRkc \in \mathbb{R}^k,有

cXndcXc' X_n \xrightarrow{d} c' X

这一方法在多元渐近理论中极为实用:只需验证任意线性组合的一维分布收敛性,即可推断联合分布的弱收敛。

矩母函数法

当矩母函数 (MGF) 在零点的邻域内存在时,MGF 的逐点收敛同样能导出分布收敛。这在指数族分布的渐近分析中尤为方便。

核心定理

连续映射定理 (Continuous Mapping Theorem)

g:RkRmg: \mathbb{R}^k \to \mathbb{R}^mXX 的支撑集上几乎处处连续,且 XndXX_n \xrightarrow{d} X,则

g(Xn)dg(X)g(X_n) \xrightarrow{d} g(X)

这意味着分布收敛在连续变换下保持封闭。一个典型应用是:若 n(Xˉnμ)dN(0,Σ)\sqrt{n}(\bar{X}_n - \mu) \xrightarrow{d} N(0, \Sigma),则对任意 Σ\Sigma 的连续函数 hh(如求迹、求逆的连续分量),hh 的作用连续传递到极限分布。

Slutsky 定理

XndXX_n \xrightarrow{d} XYnpcY_n \xrightarrow{p} ccc 为常数),则:

  1. Xn+YndX+cX_n + Y_n \xrightarrow{d} X + c
  2. XnYndcXX_n Y_n \xrightarrow{d} c X
  3. c0c \neq 0Xn/YndX/cX_n / Y_n \xrightarrow{d} X / c

Slutsky 定理在计量经济学中尤其实用:当一个统计量的分子依分布收敛而分母依概率收敛于常数时,其比值的渐近分布可立即得出。例如,tt 统计量的渐近正态性即通过 Slutsky 定理结合依概率收敛于 1 的方差估计量得到。

Delta 方法

n(Tnθ)dN(0,Σ)\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \Sigma),且 g:RkRmg: \mathbb{R}^k \to \mathbb{R}^mθ\theta 处可微,其 Jacobian 矩阵为 g(θ)\nabla g(\theta),则

n(g(Tn)g(θ))dN ⁣(0,  g(θ)Σg(θ))\sqrt{n}\big(g(T_n) - g(\theta)\big) \xrightarrow{d} N\!\big(0,\; \nabla g(\theta)\, \Sigma\, \nabla g(\theta)'\big)

Delta 方法是连续映射定理的精细化:通过一阶 Taylor 展开将非线性变换的渐近方差线性化。它在构造复杂估计量(如比率估计量、弹性系数、GMM 目标的非线性函数)的置信区间时不可或缺。

经典应用:中心极限定理

分布收敛最重要的应用实例当属中心极限定理 (Central Limit Theorem, CLT)。设 Y1,Y2,Y_1, Y_2, \dots 为独立同分布随机变量,其均值 μ\mu、方差 σ2<\sigma^2 < \infty。令样本均值 Yˉn=1ni=1nYi\bar{Y}_n = \frac{1}{n}\sum_{i=1}^n Y_i,则:

n(Yˉnμ)dN(0,σ2)\sqrt{n}\,(\bar{Y}_n - \mu) \xrightarrow{d} N(0, \sigma^2)

等价地:

Yˉnμσ/ndN(0,1)\frac{\bar{Y}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1)

CLT 的 Lindeberg-Lévy 版本通过特征函数法证明:将 n(Yˉnμ)\sqrt{n}(\bar{Y}_n - \mu) 的特征函数泰勒展开至二阶,取极限得 eσ2t2/2e^{-\sigma^2 t^2 / 2}。更一般的 Lindeberg-Feller 定理 则放宽了同分布要求,仅要求 Lindeberg 条件成立。

CLT 深刻解释了正态分布在统计推断中的核心地位:无论原始数据来自何种分布(仅需有限方差),大样本下样本均值的分布总是趋近正态。这使得基于正态近似的置信区间和假设检验在大样本中具备了广泛的鲁棒性。

局限性与常见误区

尽管分布收敛是最宽松、最常用的收敛模式,使用时仍有若干重要限制:

  1. 不蕴含矩收敛XndXX_n \xrightarrow{d} X 并不意味着 E[Xn]E[X]\mathbb{E}[X_n] \to \mathbb{E}[X]。例如,定义 Xn=nX_n = n 以概率 1/n1/nXn=0X_n = 0 以概率 11/n1 - 1/n。则 Xnd0X_n \xrightarrow{d} 0(依分布收敛于 00),但 E[Xn]=1↛0\mathbb{E}[X_n] = 1 \not\to 0。矩的收敛需要额外的一致可积条件。
  2. 不保证联合收敛XndXX_n \xrightarrow{d} XYndYY_n \xrightarrow{d} Y 不保证 (Xn,Yn)d(X,Y)(X_n, Y_n) \xrightarrow{d} (X, Y)。联合弱收敛需要更强的条件,如 XnX_nYnY_n 的联合特征函数收敛。
  3. 独立性"无记忆"传递:即使 XndXX_n \xrightarrow{d} X,无法推断 Xn+1XnX_{n+1} - X_n 的行为。分布收敛只刻画极限分布形状,对序列内部的依赖结构完全沉默。
  4. 多维退化情形:若极限分布集中在某个低维子空间内(如奇异多元正态),CDF 方法需谨慎处理。此时特征函数法或 Cramér-Wold 方法更为可靠。

在统计推断中的定位

分布收敛构成了现代渐近统计理论的基石。几乎所有经典估计量和检验统计量的大样本性质——极大似然估计的渐近正态性与渐近有效性(Cramér-Rao 下界的渐近达成)、广义矩方法 (GMM) 的渐近分布、似然比检验在零假设下的卡方极限分布、Wald 检验拉格朗日乘数检验 (LM 检验) 的渐近等价性——最终都归结为对某些精心构造的随机序列证明分布收敛。理解分布收敛的定义、等价条件和核心定理,是进入渐近统计学和高等计量经济学殿堂的第一把钥匙。