ARTICLE

Normal Distribution|正态分布

正态分布 (Normal Distribution) 正态分布（Normal Distribution），又称高斯分布（Gaussian Distribution），是概率论与统计学中最为核心的连续概率分布。其概率密度函数呈对称的钟形曲线，由卡尔·弗里德里希·高斯（Carl Friedrich Gauss）于 1809 年在研究中首次系统阐述，但亚伯拉罕·棣

浏览 0 更新 2026-06-27

正态分布 (Normal Distribution)

正态分布（Normal Distribution），又称高斯分布（Gaussian Distribution），是概率论与统计学中最为核心的连续概率分布。其概率密度函数呈对称的钟形曲线，由卡尔·弗里德里希·高斯（Carl Friedrich Gauss）于 1809 年在研究中首次系统阐述，但亚伯拉罕·棣莫弗（Abraham de Moivre）早在 1733 年就已推导出该分布的特殊形式。正态分布在自然科学、社会科学、工程技术和金融建模中无处不在，其统治地位源于中心极限定理（Central Limit Theorem）——大量独立随机变量的均值近似服从正态分布，无论原始变量的分布形态如何。

定义与数学表述

概率密度函数

正态分布的概率密度函数（PDF）由两个参数完全确定：均值 $\mu$ （位置参数，决定曲线的对称中心）和方差 $\sigma^2$ （尺度参数，决定曲线的分散程度）。其表达式为：

f(x \mid \mu, \sigma^2) = \frac{1}{\sigma \sqrt{2\pi}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right), \quad x \in \mathbb{R}

其中 $\sigma > 0$ 为标准差， $e$ 为自然对数的底数。该函数在整个实数轴上严格为正，曲线在 $x = \mu$ 处达到峰值 $\frac{1}{\sigma\sqrt{2\pi}}$ ，并在 $x = \mu \pm \sigma$ 处存在拐点。

累积分布函数

正态分布的累积分布函数（CDF）定义为：

\Phi(x; \mu, \sigma^2) = \frac{1}{\sigma\sqrt{2\pi}} \int_{-\infty}^{x} \exp\left(-\frac{(t - \mu)^2}{2\sigma^2}\right) dt

该积分没有初等闭式表达式，因此在实际计算中通常借助数值积分方法或查表。这一"不可积"的特性正是统计软件和标准正态分布表存在的根本原因。

标准正态分布

当 $\mu = 0$ 且 $\sigma = 1$ 时，正态分布退化为标准正态分布（Standard Normal Distribution），记作 $Z \sim N(0, 1)$ 。任意正态分布均可通过线性变换标准化：若 $X \sim N(\mu, \sigma^2)$ ，则 $Z = \frac{X - \mu}{\sigma} \sim N(0, 1)$ 。这一标准化过程使得概率计算只需一张标准正态分布表即可完成。

关键性质

对称性与峰度

正态分布的密度函数关于均值 $\mu$ 左右对称，其偏度（Skewness）为 $0$ ，峰度（Kurtosis）为 $3$ （通常以超值峰度 $0$ 作为基准）。这一对称性意味着均值、中位数和众数三者完全相等，均位于分布的中心位置。

3σ 法则

正态分布的一个广为流传的经验法则是"3σ 法则"：观测值落在 $[\mu - \sigma, \mu + \sigma]$ 内的概率约为 $68.27\%$ ；落在 $[\mu - 2\sigma, \mu + 2\sigma]$ 内的概率约为 $95.45\%$ ；落在 $[\mu - 3\sigma, \mu + 3\sigma]$ 内的概率约为 $99.73\%$ 。这一法则在质量控制（Quality Control）中具有重要应用：当生产过程的观测值超出 3σ 界限时，通常被视为过程失控的信号。

再生性

正态分布具有再生性（Reproductive Property）：如果 $X_1, X_2, \ldots, X_n$ 是相互独立的随机变量，且 $X_i \sim N(\mu_i, \sigma_i^2)$ ，则它们的线性组合 $\sum_{i=1}^n a_i X_i$ 仍服从正态分布：

\sum_{i=1}^n a_i X_i \sim N\left(\sum_{i=1}^n a_i \mu_i, \sum_{i=1}^n a_i^2 \sigma_i^2\right)

特别地，独立同分布正态随机变量的样本均值 $\bar{X}$ 服从 $N(\mu, \sigma^2/n)$ ，这使得正态总体的统计推断具有非常简洁的形式。

指数族性质

正态分布属于指数族分布（Exponential Family），其充分统计量为 $\sum X_i$ 和 $\sum X_i^2$ 。这一性质使得正态分布在广义线性模型（GLM）和贝叶斯统计（Bayesian Statistics）中享有特殊的便利——其共轭先验分布是正态-逆伽马分布，从而后验分布具有解析的闭式解。

中心极限定理的地位

中心极限定理（CLT）是正态分布在统计学中占据核心地位的数学根源。该定理指出：无论原始总体的分布形态如何（只要方差有限），当样本量 $n$ 充分大时，样本均值的抽样分布近似服从正态分布。这一发现具有革命性的实践意义：研究者无需了解总体分布的具体细节，仅凭正态近似即可构造置信区间（Confidence Interval）和进行假设检验（Hypothesis Testing）。在实际应用中， $n \geq 30$ 通常被视为正态近似有效的经验阈值，但对于高度偏斜或厚尾的分布，所需样本量可能远大于此。

矩母函数与特征函数

正态分布的矩母函数（MGF）和特征函数（Characteristic Function）具有封闭的解析形式，这在理论推导中极为便利。 $X \sim N(\mu, \sigma^2)$ 的矩母函数为：

M_X(t) = \mathbb{E}[e^{tX}] = \exp\left(\mu t + \frac{\sigma^2 t^2}{2}\right), \quad t \in \mathbb{R}

特征函数为：

\varphi_X(t) = \mathbb{E}[e^{itX}] = \exp\left(i\mu t - \frac{\sigma^2 t^2}{2}\right)

特征函数的一个重要应用是证明正态分布的稳定性：独立正态随机变量的和仍然服从正态分布，且正态分布是唯一具有有限方差的稳定分布。

多元正态分布

正态分布可自然推广至多维情形。设 $\mathbf{X} = (X_1, X_2, \ldots, X_p)^\top$ 为一个 $p$ 维随机向量，若其联合分布服从多元正态分布（Multivariate Normal Distribution），记作 $\mathbf{X} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ ，其中 $\boldsymbol{\mu}$ 为 $p$ 维均值向量， $\boldsymbol{\Sigma}$ 为 $p \times p$ 协方差矩阵（正定对称）。其联合概率密度函数为：

f(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{p/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})\right)

多元正态分布具有两个关键性质：边际分布和条件分布仍为正态分布；不相关即意味着独立（对于正态分布而言，协方差为零与独立性等价，这是一般分布所不具备的特性）。这些性质使得多元正态分布在多元统计分析（Multivariate Analysis）、因子分析（Factor Analysis）和结构方程模型（SEM）中扮演着不可替代的角色。

实践应用

统计推断

正态总体是参数统计推断中最常见的假定。基于正态分布，我们得以推导出 $t$ 分布（用于均值检验）、 $F$ 分布（用于方差分析）和 $\chi^2$ 分布（用于方差检验）等重要的抽样分布（Sampling Distribution）。在实际应用中，虽然数据很少完美符合正态性假定，但线性回归（Linear Regression）模型的残差正态性、方差分析（ANOVA）的正态性要求和极大似然估计（MLE）的正态渐近性，都使正态分布成为统计建模的默认参照系。

自然与社会现象建模

正态分布在自然界中频繁出现：人类身高、血压测量值、智力测试分数（IQ 分数通常被标准化为均值 100、标准差 15 的正态分布）、测量误差和物理观测噪声等，均近似服从正态分布。在社会科学领域，尽管个体行为的分布常常呈现偏态或厚尾特征，但样本统计量（如样本均值、回归系数估计值）在大样本下正态逼近的性质支撑了大多数实证研究的推断框架。

局限性与批评

尽管正态分布的应用极为广泛，它并非普适模型。金融收益率数据通常呈现尖峰厚尾（Leptokurtosis and Heavy Tails）特征，例如在金融危机（Financial Crisis）期间，极端事件的发生频率远高于正态分布的预测，这使得基于正态假定的风险模型（如 VaR）严重低估尾部风险。此外，收入分布通常呈右偏态，社会网络中的度分布呈幂律分布，这些现象更适合用对数正态分布、帕累托分布或稳定分布（Stable Distribution）来建模。因此，虽然正态分布是统计分析的最佳起点，但研究者需要结合具体数据特征和领域知识审慎选择分布模型。