正态近似 (Normal Approximation)
正态近似 (Normal Approximation) 是 数理统计 中的一种核心近似方法,其基本思想是:当样本量足够大时,利用 正态分布 来逼近某个统计量或随机变量的真实分布,从而简化概率计算与统计推断。该方法的理论基础是 中心极限定理 (Central Limit Theorem, CLT) 以及 大数定律,是连接精确分布理论与渐近理论的桥梁。
正态近似的核心价值在于其通用性。许多统计量(如样本均值、样本比例、似然比统计量)的精确分布往往难以解析表达,但其渐近分布却是正态的。因此,在样本量适中的条件下,正态近似提供了可靠且计算简便的推断框架。
理论基础
正态近似的核心数学依据是中心极限定理。以 Lindeberg-Lévy CLT 为例:设 X1,X2,…,Xn 为 独立同分布 (i.i.d.) 随机变量,满足 E(Xi)=μ,Var(Xi)=σ2<∞,则样本均值 Xˉn 的标准化形式依分布收敛于标准正态:
σ/nXˉn−μdN(0,1)
等价地,Xˉn 的渐近分布为 N(μ,σ2/n)。此结论可进一步推广至 Lindeberg条件 或 Lyapunov条件 下的独立不同分布情形,以及 多元中心极限定理 下的向量情形。
此外,Slutsky 定理 (斯卢茨基定理) 和 连续映射定理 (连续映射) 为组合统计量的正态近似提供了理论支撑:若 TndN(0,σ2) 且 Snpc,则 Tn/SndN(0,σ2/c2)。这使得涉及未知参数的统计量(如 t 统计量)也可在渐近意义上获得正态近似。
二项分布的正态近似
正态近似最经典的应用是De Moivre-Laplace 定理:设 X∼Binomial(n,p),当 n 充分大时,
np(1−p)X−npdN(0,1)
也即 X 近似服从 N(np,np(1−p))。这是一个特殊的 CLT,因为二项随机变量本身就是 n 个独立 Bernoulli 变量之和。
适用条件(经验准则):通常要求 np≥5 且 n(1−p)≥5(或更保守的 np≥10 且 n(1−p)≥10)。当 p 接近 0 或 1 时,二项分布严重偏斜,正态近似效果变差,此时应改用 泊松分布 近似(小 p 情形)或精确的 Clopper-Pearson 区间。
概率计算:对于 X∼Binomial(n,p),近似计算 P(a≤X≤b) 时,使用标准化:
P(a≤X≤b)≈Φ(np(1−p)b−np)−Φ(np(1−p)a−np)
其中 Φ(⋅) 为标准正态累积分布函数。
连续性校正
由于正态分布是连续的而二项分布是离散的,直接用正态近似计算离散概率会引入系统误差。连续性校正 (Continuity Correction) 通过将整数 x 对应的概率转化为区间 (x−0.5,x+0.5) 上的正态概率来改善近似精度:
P(X=x)≈Φ(np(1−p)x+0.5−np)−Φ(np(1−p)x−0.5−np)
对于区间概率:
P(a≤X≤b)≈Φ(np(1−p)b+0.5−np)−Φ(np(1−p)a−0.5−np)
研究表明,当 n 较小时校正效果明显;当 n 很大(如 n>100)时,校正与否差异不大,但校正总是更精确,因此建议在应用正态近似时默认使用连续性校正。
泊松分布的正态近似
对于 Y∼Poisson(λ),当 λ 充分大时(通常 λ≥10 或 λ≥20),可利用泊松分布的可加性与 CLT 导出正态近似:
λY−λ≈N(0,1)
即 Y 近似服从 N(λ,λ)。此近似同样可通过连续性校正获得更好精度。当 λ 较小时,正态近似效果不佳,应改用精确泊松概率。
渐近置信区间
正态近似也是构建渐近置信区间的基础方法。对于参数 θ,若存在渐近正态估计量 θ^ndN(θ,Asy.Var(θ^n)),则 θ 的 100(1−α)% 渐近置信区间为:
θ^n±zα/2⋅SE(θ^n)
其中 zα/2 为标准正态的 α/2 上分位数,SE 为渐近标准误的一致估计。例如,二项比例 p 的 Wald 区间 p^±zα/2p^(1−p^)/n 即为最经典的渐近正态区间。更稳健的替代方案包括 Agresti-Coull区间 和 Wilson 得分区间。
局限性与注意事项
- 小样本偏差:当样本量不足时,正态近似可能产生严重偏差。此时应优先使用精确方法(如 Fisher 精确检验)或基于 Bootstrap 的方法。
- 尾部近似差:正态近似在分布中心区域表现良好,但在尾部(如 p<0.01 的极端概率)偏差较大。Berry-Esseen不等式 给出了正态近似误差的界:∣Fn(x)−Φ(x)∣≤C⋅ρ/(σ3n),其中 ρ=E(∣Xi−μ∣3),C 为常数。
- 偏态分布需更大样本:对于高度偏斜的总体(如指数分布),需要更大的样本量才能使 CLT 生效。
- 方差未知的处理:用样本方差替代总体方差时,有限样本下的分布更接近 t分布 而非正态。但随自由度增加,t 分布本身也趋向正态,故大样本下正态近似仍成立。
正态近似是现代统计推断的基石之一,从假设检验到置信区间构造,从 Delta方法 到 极大似然估计 的渐近理论,都依赖于正态近似这一核心工具。掌握其适用条件与边界,是正确应用统计方法的前提。