ARTICLE

中心极限定理 (Central Limit Theorem)

中心极限定理 (Central Limit Theorem, CLT) 中心极限定理 (Central Limit Theorem) 是概率论和数理统计中最重要的理论成果之一。它断言,对于一组独立同分布的随机变量,不论其原始分布的形状如何,只要样本量充分大,样本均值的分布将近似于正态分布。中心极限定理解释了正态分布在自然界和实证科学中普遍出现的原因,并为大量

浏览 0 更新 2026-05-27

中心极限定理 (Central Limit Theorem, CLT)

中心极限定理 (Central Limit Theorem) 是概率论数理统计中最重要的理论成果之一。它断言,对于一组独立同分布的随机变量,不论其原始分布的形状如何,只要样本量充分大,样本均值的分布将近似于正态分布。中心极限定理解释了正态分布在自然界和实证科学中普遍出现的原因,并为大量统计推断方法——置信区间假设检验大样本近似——提供了理论支柱。该定理的古典形式由棣莫弗拉普拉斯于 18–19 世纪率先提出,20 世纪由LindebergLévyFeller 等人推广至更宽泛的条件。

经典 Lindeberg-Lévy CLT

X1,X2,,XnX_1, X_2, \ldots, X_n 为独立同分布随机变量,具有有限期望 μ=E[Xi]\mu = \mathbb{E}[X_i] 和有限方差 σ2=Var(Xi)<\sigma^2 = \operatorname{Var}(X_i) < \infty。定义样本均值 Xˉn=1ni=1nXi\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i,则标准化样本均值的分布依分布收敛于标准正态分布:

Xˉnμσ/ndN(0,1),当 n\frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \overset{d}{\longrightarrow} N(0, 1), \quad \text{当 } n \to \infty

等价地,对任意实数 xx,有:

limnPr(Xˉnμσ/nx)=Φ(x)\lim_{n \to \infty} \Pr\left( \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \leq x \right) = \Phi(x)

其中 Φ(x)\Phi(x) 为标准正态累积分布函数。定理的关键洞察在于,无论 XiX_i 是离散还是连续、对称还是偏斜、均匀还是指数分布,只要满足有限方差条件,其样本均值的极限分布均为正态——这是概率论中"普适性"的数学表述。

Lindeberg-Feller 条件与三角阵列形式

独立同分布条件在实践中过于严格。Lindeberg-Feller 中心极限定理将其推广至独立但不同分布的情形。设 Xn,1,,Xn,knX_{n,1}, \ldots, X_{n,k_n} 为行独立的三角阵列,满足零均值条件 E[Xn,i]=0\mathbb{E}[X_{n,i}] = 0,且行内方差之和 iσn,i2σ2>0\sum_i \sigma_{n,i}^2 \to \sigma^2 > 0。Lindeberg 条件要求对任意 ϵ>0\epsilon > 0

limn1iσn,i2i=1knE[Xn,i21{Xn,i>ϵ}]=0\lim_{n \to \infty} \frac{1}{\sum_i \sigma_{n,i}^2} \sum_{i=1}^{k_n} \mathbb{E}\left[ X_{n,i}^2 \cdot \mathbf{1}\{|X_{n,i}| > \epsilon\} \right] = 0

该条件保证没有任何单个观测能支配总和的行为——直观上意味着所有变量对总方差的贡献均匀分散,无单一变量主导。在此条件下,标准化行和依分布收敛于 N(0,σ2)N(0, \sigma^2)

计量经济学中的核心地位

计量经济学中,中心极限定理是推导OLS估计量渐近正态性的基础。在经典线性回归假设下,OLS估计量 β^\hat{\boldsymbol{\beta}} 的渐近分布由 n(β^β)dN(0,σ2Q1)\sqrt{n}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \overset{d}{\longrightarrow} N(0, \sigma^2 \mathbf{Q}^{-1}) 给出,其中 Q\mathbf{Q} 为二阶矩矩阵。即便误差项非正态,只要满足白噪声和有限四阶矩条件,CLT 仍保证 t 统计量和 F 统计量在大样本下成立——这正是基于渐近理论的统计推断的运作机制。

时间序列分析中,中心极限定理有相应的相依序列推广——在适当的混合条件(如强混合鞅差序列)下,序列自相关的样本均值的标准化形式仍收敛于正态分布。Newey-West标准误异方差自相关一致 (HAC) 协方差估计量皆依赖于此推论。中心极限定理由此构成了计量经济学中从样本数据到概率推断的桥梁,使研究者得以在关于数据生成过程的最弱假设下进行统计推断。