ARTICLE

normal distribution

正态分布 (Normal Distribution) 正态分布(Normal Distribution),又称高斯分布(Gaussian Distribution),是概率论与统计学中最重要的连续概率分布。其概率密度函数(PDF)呈钟形对称曲线,由德国数学家高斯(Carl Friedrich Gauss)在十九世纪初系统研究天体测量误差时正式提出。正态分布由

浏览 0 更新 2025-10-26

正态分布 (Normal Distribution)

正态分布(Normal Distribution),又称高斯分布(Gaussian Distribution),是概率论与统计学中最重要的连续概率分布。其概率密度函数(PDF)呈钟形对称曲线,由德国数学家高斯(Carl Friedrich Gauss)在十九世纪初系统研究天体测量误差时正式提出。正态分布由两个参数完全刻画:均值 μR\mu \in \mathbb{R} 决定分布的中心位置,方差 σ2>0\sigma^2 > 0 决定分布的离散程度。记作 XN(μ,σ2)X \sim N(\mu, \sigma^2)

概率密度函数与数学性质

正态分布的概率密度函数为:

f(x)=1σ2πexp((xμ)22σ2),xRf(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right), \quad x \in \mathbb{R}

该函数具有以下核心性质:

  1. 对称性:密度函数关于均值 μ\mu 严格对称,即 f(μ+c)=f(μc)f(\mu + c) = f(\mu - c) 对所有 c>0c > 0 成立。因此均值、中位数与众数三者重合于 μ\mu
  2. 单峰性:在 x=μx = \mu 处取得唯一极大值 1σ2π\frac{1}{\sigma\sqrt{2\pi}},曲线向两侧单调递减并渐近于横轴。
  3. 拐点:曲线在 μ±σ\mu \pm \sigma 处发生凹凸性变化,σ\sigma 越小曲线越陡峭集中,越大则越扁平分散。
  4. 线性变换不变性:若 XN(μ,σ2)X \sim N(\mu, \sigma^2),则线性变换 aX+baX + b 仍服从正态分布:aX+bN(aμ+b,a2σ2)aX + b \sim N(a\mu + b, a^2\sigma^2),其中 a0a \neq 0。这一封闭性使正态分布在线性回归计量经济学的推导中极为便利。
  5. 矩与累积量:所有阶矩均存在。期望 E[X]=μ\mathbb{E}[X] = \mu,方差 Var(X)=σ2\operatorname{Var}(X) = \sigma^2,偏度为零(完美对称),峰度为 33(作为其他分布峰值比较的基准)。奇数阶中心矩全为零。

标准正态分布

将任意正态随机变量 XN(μ,σ2)X \sim N(\mu, \sigma^2) 通过减去均值再除以标准差的标准化变换:

Z=XμσZ = \frac{X - \mu}{\sigma}

得到标准正态分布 (Standard Normal Distribution) ZN(0,1)Z \sim N(0, 1)。其密度函数简化为:

ϕ(z)=12πez2/2\phi(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2}

相应的累积分布函数 (CDF) 记为 Φ(z)=zϕ(t)dt\Phi(z) = \int_{-\infty}^{z} \phi(t)\,dtΦ(z)\Phi(z) 无闭合解析表达式,需通过数值积分或查表获取。标准正态分布是统计推断的核心标尺:任意正态概率计算均可通过标准化转化为对 Φ\Phi 的求值,例如:

P(a<X<b)=Φ ⁣(bμσ)Φ ⁣(aμσ)P(a < X < b) = \Phi\!\left(\frac{b - \mu}{\sigma}\right) - \Phi\!\left(\frac{a - \mu}{\sigma}\right)

经验法则(68--95--99.7 法则)

正态分布有一个著名的经验法则(Empirical Rule),精确描述数据在均值周围若干标准差范围内的覆盖比例:

  • 68.27%68.27\% 的数据落在 μ±σ\mu \pm \sigma 区间内;
  • 95.45%95.45\% 的数据落在 μ±2σ\mu \pm 2\sigma 区间内;
  • 99.73%99.73\% 的数据落在 μ±3σ\mu \pm 3\sigma 区间内。

该法则在质量控制(如六西格玛管理)、金融风险管理(如风险价值 VaR)和假设检验中广泛使用,为判断观测值是否异常提供了直观的概率基准。

中心极限定理与正态分布的核心地位

正态分布之所以在统计学中占据统治地位,根本原因在于中心极限定理(Central Limit Theorem, CLT):对于独立同分布(i.i.d.)的随机变量序列 X1,X2,,XnX_1, X_2, \ldots, X_n,无论其原始分布如何(只要期望 μ\mu 与方差 σ2\sigma^2 有限),样本均值 Xˉn=1ni=1nXi\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_inn \to \infty 时的分布趋近于 N(μ,σ2/n)N(\mu, \sigma^2/n)。更一般地,Lindeberg-Lévy 和 Lyapunov 形式的 CLT 将这一结论推广到不同分布但满足特定正则条件的随机变量。

CLT 解释了自然界和经济社会中大量近似正态现象的存在——当某个结果是由众多微小、独立的随机因素叠加产生时,该结果便趋向于正态分布。测量误差、生物体特征(身高、体重)、金融资产的对数收益率等在适当条件下均呈现近似正态。

在经济学与计量经济学中的应用

正态分布在经济学和计量经济学中是贯穿性的基础假设与工具:

回归模型的误差项经典线性回归模型假设误差项 εii.i.d. N(0,σ2)\varepsilon_i \sim \text{i.i.d. } N(0, \sigma^2)。该假设使得普通最小二乘法(OLS)估计量 β^\hat{\beta} 不仅是最优线性无偏估计(BLUE),本身也服从正态分布,从而为 tt 检验、FF 检验和置信区间的构造提供了精确的有限样本依据。

最大似然估计:正态分布的对数似然函数与最小二乘的目标函数——残差平方和最小化——等价,这一联系使得正态假设下的 MLE 与 OLS 在估计量上重合,构成计量理论中最优雅的对偶。

金融建模Black-Scholes期权定价模型假设标的资产价格服从对数正态分布(即对数收益率服从正态分布)。尽管实际金融数据呈现"肥尾"(Fat Tail)特征——极端事件的发生概率远超正态分布预测,正态假设仍作为基准模型广泛使用。波动率聚集等典型事实催生了ARCH/GARCH等修正框架,但其结构内核仍以正态分布为出发点。

贝叶斯统计:正态分布是共轭先验家族的成员——正态似然配合正态先验产生正态后验,使得贝叶斯更新在计算上具备闭式解析解,在贝叶斯计量经济学机器学习的高斯过程等方法中不可或缺。

假设检验与功效分析tt 分布(正态分布的小样本版本)、χ2\chi^2 分布(独立标准正态的平方和)、FF 分布(两个独立 χ2\chi^2 之比)均从正态分布派生而来,构成频率学派统计推断的完整骨架。

多元正态分布

将一元正态拓展到 kk 维随机向量 X=(X1,,Xk)\mathbf{X} = (X_1, \ldots, X_k)',得到多元正态分布。其密度函数为:

f(x)=1(2π)k/2Σ1/2exp ⁣(12(xμ)Σ1(xμ))f(\mathbf{x}) = \frac{1}{(2\pi)^{k/2}|\Sigma|^{1/2}} \exp\!\left(-\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu})'\Sigma^{-1}(\mathbf{x} - \boldsymbol{\mu})\right)

其中 μ\boldsymbol{\mu} 为均值向量,Σ\Sigmak×kk \times k 协方差矩阵(需正定)。多元正态的核心性质——边际分布、条件分布、线性组合均保持正态——使其成为向量自回归(VAR)、资本资产定价模型(CAPM)和主成分分析(PCA)等多变量经济分析工具的数学地基。

正态分布从测量误差的朴素模型出发,经由中心极限定理获得普适性,最终在统计推断、经济建模与数据科学的几乎每一个分支中扎根,成为连接概率论与经验世界的核心纽带。

历史渊源与命名

正态分布的历史可追溯至十八世纪。法国数学家棣莫弗(Abraham de Moivre)在1733年为近似二项分布的计算首次推导出正态曲线的数学形式,这同时也是中心极限定理的最早雏形。此后,拉普拉斯(Pierre-Simon Laplace)在1810年的中心极限定理证明中将正态分布从一项数学近似提升为具有普遍意义的极限分布。高斯于1809年在《天体运动理论》中使用正态分布为天文观测误差建模,并以最小二乘法论证了正态分布在误差分析中的最优性,其影响力如此深远,以至于正态分布至今亦称高斯分布。十九世纪比利时统计学家凯特勒(Adolphe Quetelet)将正态分布引入社会科学,首次用其拟合人体测量数据(如士兵胸围),由此开创了将统计规律应用于社会现象的传统,为现代计量经济学生物统计学的诞生埋下伏笔。