ARTICLE

Normal distribution

正态分布 (Normal Distribution) 正态分布 (Normal Distribution),又称高斯分布 (Gaussian Distribution),是统计学和计量经济学中最重要的连续概率分布。其概率密度函数 (PDF) 为: 其中 R 为均值 (Mean),决定分布的中心位置; > 0 为标准差 (Standard Deviation)

浏览 0 更新 2025-10-26

正态分布 (Normal Distribution)

正态分布 (Normal Distribution),又称高斯分布 (Gaussian Distribution),是统计学和计量经济学中最重要的连续概率分布。其概率密度函数 (PDF) 为:

f(xμ,σ2)=1σ2πexp((xμ)22σ2),xRf(x \mid \mu, \sigma^2) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad x \in \mathbb{R}

其中 μR\mu \in \mathbb{R}均值 (Mean),决定分布的中心位置;σ>0\sigma > 0标准差 (Standard Deviation),σ2\sigma^2方差 (Variance),共同决定分布的离散程度。该钟形曲线关于 x=μx = \mu 对称,在 x=μ±σx = \mu \pm \sigma 处存在拐点。

核心性质

正态分布具备若干关键性质,使其在理论推导和应用中占据核心地位:

  1. 对称性与单峰性:分布关于均值 μ\mu 严格对称,均值、中位数与众数三者重合。偏度 (Skewness) 为 0,峰度 (Kurtosis) 为 3(超额峰度为 0)。
  2. 经验规则 (Empirical Rule):对于任意正态分布,约 68.27\% 的概率质量落在 μ±σ\mu \pm \sigma 内,约 95.45\% 落在 μ±2σ\mu \pm 2\sigma 内,约 99.73\% 落在 μ±3σ\mu \pm 3\sigma 内。这一"68--95--99.7 规则"是统计过程控制和质量管理的常用基准。
  3. 线性变换不变性:若 XN(μ,σ2)X \sim N(\mu, \sigma^2),则对任意常数 a,ba, ba0a \neq 0),有 aX+bN(aμ+b,  a2σ2)aX + b \sim N(a\mu + b,\; a^2\sigma^2)。正态分布在仿射变换下保持正态性。
  4. 独立可加性:若 X1N(μ1,σ12)X_1 \sim N(\mu_1, \sigma_1^2)X2N(μ2,σ22)X_2 \sim N(\mu_2, \sigma_2^2) 独立,则 X1+X2N(μ1+μ2,  σ12+σ22)X_1 + X_2 \sim N(\mu_1 + \mu_2,\; \sigma_1^2 + \sigma_2^2)。这一性质可推广至任意有限个独立正态变量。
  5. 指数族成员:正态分布属于指数族 (Exponential Family),其充分统计量为 (Xi,  Xi2)\left(\sum X_i,\; \sum X_i^2\right)。这一属性保证了对 μ\muσ2\sigma^2 的极大似然估计具有良好的理论性质。

标准正态分布与 Z-变换

将任意正态变量标准化即得标准正态分布 (Standard Normal Distribution):

Z=XμσN(0,1)Z = \frac{X - \mu}{\sigma} \sim N(0, 1)

其密度函数简化为 ϕ(z)=12πez2/2\phi(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2},累积分布函数 (CDF) 记为 Φ(z)\Phi(z),满足 Φ(z)=1Φ(z)\Phi(-z) = 1 - \Phi(z)Φ(z)\Phi(z) 无闭式解析表达式,其值通过查表或数值积分获取。在假设检验中,zz 分数 (Z-score) 衡量观测值偏离均值的标准化距离,是构造 pp 值的标准工具。

中心极限定理

正态分布的核心理论支柱是中心极限定理 (Central Limit Theorem, CLT)。设 X1,X2,,XnX_1, X_2, \dots, X_n 为独立同分布 (i.i.d.) 的随机变量,均值为 μ\mu,方差为 σ2<\sigma^2 < \infty,则样本均值 Xˉn\bar{X}_n 的标准化版本收敛于标准正态分布:

Xˉnμσ/ndN(0,1),当 n\frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1), \quad \text{当 } n \to \infty

CLT 不要求原始分布为正态——这一普适性是正态分布在推断统计中无孔不入的根源。样本量越大,近似精度越高。Lindeberg 条件和 Lyapunov 条件将 CLT 推广至独立但不同分布的情形。在计量经济学中,CLT 是构造置信区间和OLS估计量渐近分布的理论基础。

应用场景

计量经济学与回归分析:经典线性回归模型假设误差项服从正态分布 uiN(0,σ2)u_i \sim N(0, \sigma^2)。这一假设保证了OLS估计量在有限样本下的精确分布性质——OLS 估计量 β^N(β,σ2(XX)1)\hat{\beta} \sim N(\beta, \sigma^2 (X'X)^{-1}),进而支撑 tt 检验和 FF 检验的有效性。在大样本下,即使误差非正态,CLT 亦保证渐近正态性。

金融建模:资产收益率常被建模为正态分布(尽管实际分布通常呈现厚尾 (Heavy Tails) 和偏斜特征)。Black-Scholes-Merton期权定价模型假定对数收益率服从正态分布,即价格服从对数正态分布VaR (Value at Risk) 在参数法下直接利用正态分位数计算尾部风险。

统计质量控制:Shewhart 控制图以正态分布的 3σ3\sigma 规则为基础,样本统计量超出 μ±3σ\mu \pm 3\sigma 控制限时发出失控信号,尽管误报率仅约 0.27\%。

自然与社会科学:测量误差、身高体重等生物特征、标准化考试成绩等大量自然和社会现象近似服从正态分布,这是由 CLT——许多微小独立因素叠加作用的结果——所解释的。

衍生分布

以正态分布为母体,可衍生出若干在统计推断中至关重要的分布族:

  • 卡方分布 (χ2\chi^2):若 Z1,,Zki.i.d.N(0,1)Z_1, \dots, Z_k \stackrel{\text{i.i.d.}}{\sim} N(0,1),则 i=1kZi2χ2(k)\sum_{i=1}^{k} Z_i^2 \sim \chi^2(k)。在ANOVA、拟合优度检验和Breusch-Pagan异方差检验中均有核心应用。
  • t 分布:若 ZN(0,1)Z \sim N(0,1)Vχ2(ν)V \sim \chi^2(\nu) 独立,则 T=ZV/νt(ν)T = \frac{Z}{\sqrt{V/\nu}} \sim t(\nu)。它是小样本下对均值进行推断的基石,自由度较小时尾部厚于正态,随 ν\nu \to \infty 收敛于 N(0,1)N(0,1)
  • F 分布:两个独立卡方变量(各自除以自由度)之比服从 F 分布。它是线性回归整体显著性检验、嵌套模型比较 (Chow 检验) 和方差齐性检验的理论基础。
  • 对数正态分布 (Log-Normal Distribution):若 lnYN(μ,σ2)\ln Y \sim N(\mu, \sigma^2),则 YY 服从对数正态分布,广泛应用于收入分布建模、资产价格建模和可靠性分析。

参数估计与推断

给定样本 X1,,Xni.i.d.N(μ,σ2)X_1, \dots, X_n \stackrel{\text{i.i.d.}}{\sim} N(\mu, \sigma^2),参数的极大似然估计 (MLE) 为:

μ^MLE=Xˉ=1ni=1nXi,σ^MLE2=1ni=1n(XiXˉ)2\hat{\mu}_{\text{MLE}} = \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i, \quad \hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^{n} (X_i - \bar{X})^2

注意方差 MLE 是有偏的(Bessel 校正给出无偏估计量 s2=1n1(XiXˉ)2s^2 = \frac{1}{n-1}\sum (X_i - \bar{X})^2)。MLE 具备一致性和渐近有效性。在正态假设下,Xˉ\bar{X}s2s^2 相互独立(Fisher 引理),这是构造 tt 检验统计量的关键前提。

正态性检验:常用方法包括 Jarque-Bera 检验(联合检验偏度和峰度偏差)、Shapiro-Wilk 检验(小样本功效高)和 Kolmogorov-Smirnov 检验(通用分布拟合检验)。QQ 图 (Q-Q Plot) 将样本分位数与正态理论分位数对比,提供直观图形判断。

多元正态分布

多元正态分布 (Multivariate Normal Distribution) 是正态分布向高维空间的关键推广。一个 kk 维随机向量 X\mathbf{X} 服从多元正态,若其密度为:

f(xμ,Σ)=1(2π)k/2Σ1/2exp(12(xμ)Σ1(xμ))f(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma}) = \frac{1}{(2\pi)^{k/2} |\mathbf{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu})'\mathbf{\Sigma}^{-1}(\mathbf{x} - \boldsymbol{\mu})\right)

其中 μ\boldsymbol{\mu}k×1k \times 1 均值向量,Σ\mathbf{\Sigma}k×kk \times k 正定协方差矩阵。多元正态的关键性质包括:各分量的边缘分布均为正态(反之不真);任意线性组合服从一元正态;零协方差等价于独立性(此性质为正态独有,对一般分布不成立)。在计量经济学中,多元正态是 SUR (Seemingly Unrelated Regression) 模型和 VAR 模型误差项的基准假设,也是推导 Wald 检验、LR 检验和 LM 检验等大样本检验统计量分布的出发点。