ARTICLE

依分布收敛

依分布收敛 (Convergence in Distribution) 依分布收敛 (Convergence in Distribution)，又称为弱收敛 (Weak Convergence) 或依法收敛 (Convergence in Law)，是概率论和数理统计中描述随机变量序列行为的一个核心概念。它是不同类型随机变量收敛形式中最"弱"

浏览 46 更新 2025-10-26

依分布收敛 (Convergence in Distribution)

依分布收敛 (Convergence in Distribution)，又称为 弱收敛 (Weak Convergence) 或 依法收敛 (Convergence in Law)，是概率论和数理统计中描述随机变量序列行为的一个核心概念。它是不同类型随机变量收敛形式中最"弱"的一种，但其应用极为广泛，尤其是在大样本理论和统计推断中。

依分布收敛关注的不是随机变量序列本身的值是否趋于某个确定值，而是这些随机变量的累积分布函数 (Cumulative Distribution Function, CDF) 的序列是否趋于某个极限分布的 CDF。

形式化定义

令 $\{X_n\}_{n=1}^{\infty}$ 为一个随机变量序列，其对应的累积分布函数序列为 $\{F_n(x)\}_{n=1}^{\infty}$ ，其中 $F_n(x) = P(X_n \le x)$ 。令 $X$ 为另一个随机变量，其累积分布函数为 $F(x) = P(X \le x)$ 。

我们称序列 $\{X_n\}$ 依分布收敛 于 $X$ ，记为：

X_n \xrightarrow{d} X \quad \text{或} \quad X_n \Rightarrow X

如果对于 $F(x)$ 的所有 连续点 $x$ ，都有：

\lim_{n \to \infty} F_n(x) = F(x)

关于"连续点"的说明： 这个条件非常关键。我们不要求在 $F(x)$ 的不连续点上收敛。这是因为在离散或混合型分布的跳跃点上，即使分布的形状已经非常接近，函数值也可能存在固有的差异。

示例：考虑一个常数随机变量序列 $X_n = 1/n$ 。当 $n \to \infty$ 时， $X_n$ 的值趋近于 0。极限随机变量是 $X=0$ 。

$X_n$ 的 CDF 为 $F_n(x) = \begin{cases} 0 & \text{if } x < 1/n \\ 1 & \text{if } x \ge 1/n \end{cases}$ 。
极限随机变量 $X=0$ 的 CDF 为 $F(x) = \begin{cases} 0 & \text{if } x < 0 \\ 1 & \text{if } x \ge 0 \end{cases}$ 。
极限分布 $F(x)$ 在 $x=0$ 点是不连续的。
对于任何 $x > 0$ ，当 $n$ 足够大时，有 $1/n < x$ ，因此 $\lim_{n \to \infty} F_n(x) = \lim_{n \to \infty} 1 = 1 = F(x)$ 。
对于任何 $x < 0$ ， $\lim_{n \to \infty} F_n(x) = \lim_{n \to \infty} 0 = 0 = F(x)$ 。
因此，对于 $F(x)$ 的所有连续点（即所有 $x \ne 0$ ）， $\lim_{n \to \infty} F_n(x) = F(x)$ 成立。根据定义， $X_n \xrightarrow{d} 0$ 。我们不必关心在不连续点 $x=0$ 处的情况（在该点， $\lim_{n \to \infty} F_n(0) = 0$ 而 $F(0)=1$ ）。

直观理解

依分布收敛的本质是，随着 $n$ 的增大，随机变量 $X_n$ 的 整体概率分布特征 越来越像随机变量 $X$ 的分布特征。我们可以将其理解为：

从形状上看：如果画出 $X_n$ 的概率密度函数 (PDF) 或概率质量函数 (PMF) 的图像，随着 $n$ 的增加，这个图像的"形状"会越来越接近 $X$ 的 PDF 或 PMF 的形状。
从概率上看：对于一个区间 $(a, b]$ ，如果其端点是极限分布的连续点，那么 $X_n$ 落入该区间的概率 $P(a < X_n \le b)$ 会趋向于 $X$ 落入该区间的概率 $P(a < X \le b)$ 。
空间无关性：值得注意的是，随机变量序列 $\{X_n\}$ 和极限随机变量 $X$ 可以定义在完全不同的概率空间上。定义本身只关心它们的分布函数，而不关心它们底层的随机实验。

等价定义与重要定理

除了基于 CDF 的定义，还有一些等价的、在理论和应用中非常重要的判别方法。

Portmanteau Theorem：该定理提供了一系列与依分布收敛等价的条件。其中最常用的一个是： $X_n \xrightarrow{d} X$ 当且仅当对于任何有界的连续函数 $g: \mathbb{R} \to \mathbb{R}$ ，都有：

\lim_{n \to \infty} \mathbb{E}[g(X_n)] = \mathbb{E}[g(X)]

这个基于期望的定义在更高等的测度论框架下是弱收敛的标准定义。

Lévy's Continuity Theorem：这是实践中证明依分布收敛最强大的工具之一。它将依分布收敛与特征函数 (Characteristic Function) 的收敛联系起来。令 $\phi_n(t) = \mathbb{E}[e^{itX_n}]$ 为 $X_n$ 的特征函数， $\phi(t)$ 为 $X$ 的特征函数。那么：

X_n \xrightarrow{d} X \quad \Longleftrightarrow \quad \lim_{n \to \infty} \phi_n(t) = \phi(t) \quad \forall t \in \mathbb{R}

由于特征函数通常比分布函数更容易进行代数运算，这一定理极大地简化了许多重要极限理论的证明，例如中心极限定理。

与其他收敛形式的关系

依分布收敛是收敛概念中最弱的一种，它与其他收敛形式有如下层级关系：

几乎必然收敛 (Almost Sure Convergence) $\implies$ 依概率收敛 (Convergence in Probability) $\implies$ 依分布收敛 (Convergence in Distribution) \[ (X_n \xrightarrow{a.s.} X) \implies (X_n \xrightarrow{p} X) \implies (X_n \xrightarrow{d} X) \]
反向不成立：依分布收敛通常不能推出依概率收敛。反例：令 $X$ 是一个服从参数为 $p=0.5$ 的伯努利分布的随机变量，即 $P(X=1) = P(X=0) = 0.5$ 。定义一个序列 $X_n = 1-X$ 。对于任意的 $n$ ， $X_n$ 的分布与 $X$ 完全相同（都是同样的伯努利分布）。因此， $F_n(x) = F(x)$ 对所有 $x$ 和 $n$ 成立，显然 $X_n \xrightarrow{d} X$ 。但是， $|X_n - X| = |(1-X) - X| = |1 - 2X|$ 。当 $X=0$ 或 $X=1$ 时，这个差的绝对值恒为 1。它不趋向于 0，所以 $X_n$ 不依概率收敛于 $X$ 。
特殊情况：如果 $X_n$ 依分布收敛于一个常数 $c$ ，那么它也依概率收敛于 $c$ 。 \[ X_n \xrightarrow{d} c \quad \Longleftrightarrow \quad X_n \xrightarrow{p} c \] 这是一个非常有用的结论，它在依分布收敛和依概率收敛之间建立了一座重要的桥梁。

核心应用与相关定理

依分布收敛是构建现代统计学和计量经济学理论的基石。

中心极限定理 (Central Limit Theorem, CLT)：这是依分布收敛最著名的应用。它指出，在适当条件下，大量独立的随机变量之和（或均值）的分布会趋近于正态分布。形式上，若 $X_1, X_2, \dots$ 是独立同分布 (i.i.d.) 的随机变量，具有均值 $\mu$ 和有限方差 $\sigma^2$ ，则：

\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0, 1)

其中 $\bar{X}_n$ 是样本均值， $N(0,1)$ 是标准正态分布。这一定理是进行大样本假设检验和构造置信区间的理论基础。

连续映射定理 (Continuous Mapping Theorem, CMT)：该定理指出，连续函数可以保持依分布收敛的性质。如果 $X_n \xrightarrow{d} X$ 且函数 $g$ 在 $X$ 的支撑集上连续，则：

g(X_n) \xrightarrow{d} g(X)

例如，若已知 $Z_n \xrightarrow{d} N(0,1)$ ，由于 $g(x)=x^2$ 是连续函数，我们可以立即得到 $Z_n^2 \xrightarrow{d} \chi^2(1)$ （一个自由度为 1 的卡方分布）。

斯卢茨基定理 (Slutsky's Theorem)：该定理是处理随机变量代数运算极限的强大工具，它巧妙地结合了依分布收敛和依概率收敛。若 $X_n \xrightarrow{d} X$ 且 $Y_n \xrightarrow{p} c$ （其中 $c$ 是一个常数），则：

$X_n + Y_n \xrightarrow{d} X + c$
$X_n Y_n \xrightarrow{d} cX$
$X_n / Y_n \xrightarrow{d} X/c$ (若 $c \ne 0$ )

一个经典应用是证明当总体方差 $\sigma^2$ 未知时，学生化的样本均值在大样本下仍服从正态分布。由 CLT，我们有 $\sqrt{n}(\bar{X}_n - \mu)/\sigma \xrightarrow{d} N(0,1)$ 。由于样本标准差 $S_n$ 依概率收敛于 $\sigma$ ( $S_n \xrightarrow{p} \sigma$ )，因此 $\sigma/S_n \xrightarrow{p} 1$ 。根据斯卢茨基定理：

t_n = \frac{\sqrt{n}(\bar{X}_n-\mu)}{S_n} = \left(\frac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}\right) \cdot \left(\frac{\sigma}{S_n}\right) \xrightarrow{d} N(0,1) \cdot 1 = N(0,1)

这为大样本下使用 t 统计量进行推断提供了理论依据。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。