知经 KNOWECON · 卓越的经济金融统计数学学习平台

依分布收敛

# 依分布收敛 (Convergence in Distribution)

依分布收敛 (Convergence in Distribution),又称为 弱收敛 (Weak Convergence) 或 依法收敛 (Convergence in Law),是{{{概率论}}}和{{{数理统计}}}中描述随机变量序列行为的一个核心概念。它是不同类型{{{随机变量}}}收敛形式中最"弱"的一种,但其应用极为广泛,尤其是在大样本理论和统计推断中。

依分布收敛关注的不是随机变量序列本身的值是否趋于某个确定值,而是这些随机变量的{{{累积分布函数}}} (Cumulative Distribution Function, CDF) 的序列是否趋于某个极限分布的CDF。

## 形式化定义

令 $\{X_n\}_{n=1}^{\infty}$ 为一个{{{随机变量}}}序列,其对应的{{{累积分布函数}}}序列为 $\{F_n(x)\}_{n=1}^{\infty}$,其中 $F_n(x) = P(X_n \le x)$。令 $X$ 为另一个随机变量,其累积分布函数为 $F(x) = P(X \le x)$。

我们称序列 $\{X_n\}$ 依分布收敛于 $X$,记为: $$ X_n \xrightarrow{d} X \quad \text{或} \quad X_n \Rightarrow X $$ 如果对于 $F(x)$ 的所有连续点 $x$,都有: $$ \lim_{n \to \infty} F_n(x) = F(x) $$

关于“连续点”的说明: 这个条件非常关键。我们不要求在 $F(x)$ 的不连续点上收敛。这是因为在离散或混合型分布的跳跃点上,即使分布的形状已经非常接近,函数值也可能存在固有的差异。

* 示例:考虑一个常数随机变量序列 $X_n = 1/n$。当 $n \to \infty$ 时,$X_n$ 的值趋近于0。极限随机变量是 $X=0$。 * $X_n$ 的CDF为 $F_n(x) = \begin{cases} 0 & \text{if } x < 1/n \\ 1 & \text{if } x \ge 1/n \end{cases}$。 * 极限随机变量 $X=0$ 的CDF为 $F(x) = \begin{cases} 0 & \text{if } x < 0 \\ 1 & \text{if } x \ge 0 \end{cases}$。 * 极限分布 $F(x)$ 在 $x=0$ 点是不连续的。 * 对于任何 $x > 0$,当 $n$ 足够大时,有 $1/n < x$,因此 $\lim_{n \to \infty} F_n(x) = \lim_{n \to \infty} 1 = 1 = F(x)$。 * 对于任何 $x < 0$,$\lim_{n \to \infty} F_n(x) = \lim_{n \to \infty} 0 = 0 = F(x)$。 * 因此,对于 $F(x)$ 的所有连续点(即所有 $x \ne 0$),$\lim_{n \to \infty} F_n(x) = F(x)$ 成立。根据定义,$X_n \xrightarrow{d} 0$。我们不必关心在不连续点 $x=0$ 处的情况(在该点,$\lim_{n \to \infty} F_n(0) = 0$ 而 $F(0)=1$)。

## 直观理解

依分布收敛的本质是,随着 $n$ 的增大,随机变量 $X_n$ 的整体概率分布特征越来越像随机变量 $X$ 的分布特征。我们可以将其理解为:

* 从形状上看:如果画出 $X_n$ 的{{{概率密度函数}}} (PDF) 或{{{概率质量函数}}} (PMF) 的图像,随着 $n$ 的增加,这个图像的“形状”会越来越接近 $X$ 的PDF或PMF的形状。 * 从概率上看:对于一个区间 $(a, b]$,如果其端点是极限分布的连续点,那么 $X_n$ 落入该区间的概率 $P(a < X_n \le b)$ 会趋向于 $X$ 落入该区间的概率 $P(a < X \le b)$。 * 空间无关性:值得注意的是,随机变量序列 $\{X_n\}$ 和极限随机变量 $X$ 可以定义在完全不同的{{{概率空间}}}上。定义本身只关心它们的分布函数,而不关心它们底层的随机实验。

## 等价定义与重要定理

除了基于CDF的定义,还有一些等价的、在理论和应用中非常重要的判别方法。

* {{{Portmanteau Theorem}}}:该定理提供了一系列与依分布收敛等价的条件。其中最常用的一个是:$X_n \xrightarrow{d} X$ 当且仅当对于任何有界的连续函数 $g: \mathbb{R} \to \mathbb{R}$,都有: $$ \lim_{n \to \infty} \mathbb{E}[g(X_n)] = \mathbb{E}[g(X)] $$ 这个基于期望的定义在更高等的测度论框架下是弱收敛的标准定义。

* {{{Lévy's Continuity Theorem}}}:这是实践中证明依分布收敛最强大的工具之一。它将依分布收敛与{{{特征函数}}} (Characteristic Function) 的收敛联系起来。令 $\phi_n(t) = \mathbb{E}[e^{itX_n}]$ 为 $X_n$ 的特征函数,$\phi(t)$ 为 $X$ 的特征函数。那么: $$ X_n \xrightarrow{d} X \quad \Longleftrightarrow \quad \lim_{n \to \infty} \phi_n(t) = \phi(t) \quad \forall t \in \mathbb{R} $$ 由于特征函数通常比分布函数更容易进行代数运算,这一定理极大地简化了许多重要极限理论的证明,例如{{{中心极限定理}}}。

## 与其他收敛形式的关系

依分布收敛是收敛概念中最弱的一种,它与其他收敛形式有如下层级关系:

1. {{{几乎必然收敛}}} (Almost Sure Convergence) $\implies$ {{{依概率收敛}}} (Convergence in Probability) $\implies$ 依分布收敛 (Convergence in Distribution)

$$ (X_n \xrightarrow{a.s.} X) \implies (X_n \xrightarrow{p} X) \implies (X_n \xrightarrow{d} X) $$

2. 反向不成立:依分布收敛通常不能推出依概率收敛。 * 反例:令 $X$ 是一个服从参数为 $p=0.5$ 的伯努利分布的随机变量,即 $P(X=1) = P(X=0) = 0.5$。定义一个序列 $X_n = 1-X$。 * 对于任意的 $n$,$X_n$ 的分布与 $X$ 完全相同(都是同样的伯努利分布)。因此,$F_n(x) = F(x)$ 对所有 $x$ 和 $n$ 成立,显然 $X_n \xrightarrow{d} X$。 * 但是,$|X_n - X| = |(1-X) - X| = |1 - 2X|$。当 $X=0$ 或 $X=1$ 时,这个差的绝对值恒为1。它不趋向于0,所以 $X_n$ 不依概率收敛于 $X$。

3. 特殊情况:如果 $X_n$ 依分布收敛于一个常数 $c$,那么它也依概率收敛于 $c$。 $$ X_n \xrightarrow{d} c \quad \Longleftrightarrow \quad X_n \xrightarrow{p} c $$ 这是一个非常有用的结论,它在依分布收敛和依概率收敛之间建立了一座重要的桥梁。

## 核心应用与相关定理

依分布收敛是构建现代统计学和计量经济学理论的基石。

* {{{中心极限定理}}} (Central Limit Theorem, CLT):这是依分布收敛最著名的应用。它指出,在适当条件下,大量独立的随机变量之和(或均值)的分布会趋近于{{{正态分布}}}。形式上,若 $X_1, X_2, \dots$ 是{{{独立同分布}}} (i.i.d.) 的随机变量,具有均值 $\mu$ 和有限方差 $\sigma^2$,则: $$ \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0, 1) $$ 其中 $\bar{X}_n$ 是样本均值,$N(0,1)$ 是标准正态分布。这一定理是进行大样本{{{假设检验}}}和构造{{{置信区间}}}的理论基础。

* {{{连续映射定理}}} (Continuous Mapping Theorem, CMT):该定理指出,连续函数可以保持依分布收敛的性质。如果 $X_n \xrightarrow{d} X$ 且函数 $g$ 在 $X$ 的支撑集上连续,则: $$ g(X_n) \xrightarrow{d} g(X) $$ 例如,若已知 $Z_n \xrightarrow{d} N(0,1)$,由于 $g(x)=x^2$ 是连续函数,我们可以立即得到 $Z_n^2 \xrightarrow{d} \chi^2(1)$(一个自由度为1的卡方分布)。

* {{{斯卢茨基定理}}} (Slutsky's Theorem):该定理是处理随机变量代数运算极限的强大工具,它巧妙地结合了依分布收敛和依概率收敛。若 $X_n \xrightarrow{d} X$ 且 $Y_n \xrightarrow{p} c$(其中 $c$ 是一个常数),则: 1. $X_n + Y_n \xrightarrow{d} X + c$ 2. $X_n Y_n \xrightarrow{d} cX$ 3. $X_n / Y_n \xrightarrow{d} X/c$ (若 $c \ne 0$) 一个经典应用是证明当总体方差 $\sigma^2$ 未知时,学生化的样本均值在大样本下仍服从正态分布。由CLT,我们有 $\sqrt{n}(\bar{X}_n - \mu)/\sigma \xrightarrow{d} N(0,1)$。由于样本标准差 $S_n$ 依概率收敛于 $\sigma$ ($S_n \xrightarrow{p} \sigma$),因此 $\sigma/S_n \xrightarrow{p} 1$。根据斯卢茨基定理: $$ t_n = \frac{\sqrt{n}(\bar{X}_n-\mu)}{S_n} = \left(\frac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}\right) \cdot \left(\frac{\sigma}{S_n}\right) \xrightarrow{d} N(0,1) \cdot 1 = N(0,1) $$ 这为大样本下使用t统计量进行推断提供了理论依据。