正态分布 (Normal Distribution)
正态分布 (Normal Distribution),又称高斯分布 (Gaussian Distribution),是统计学和计量经济学中最重要的连续概率分布。其概率密度函数 (PDF) 为:
f(x∣μ,σ2)=σ2π1exp(−2σ2(x−μ)2),x∈R
其中 μ∈R 为均值 (Mean),决定分布的中心位置;σ>0 为标准差 (Standard Deviation),σ2 为方差 (Variance),共同决定分布的离散程度。该钟形曲线关于 x=μ 对称,在 x=μ±σ 处存在拐点。
核心性质
正态分布具备若干关键性质,使其在理论推导和应用中占据核心地位:
- 对称性与单峰性:分布关于均值 μ 严格对称,均值、中位数与众数三者重合。偏度 (Skewness) 为 0,峰度 (Kurtosis) 为 3(超额峰度为 0)。
- 经验规则 (Empirical Rule):对于任意正态分布,约 68.27\% 的概率质量落在 μ±σ 内,约 95.45\% 落在 μ±2σ 内,约 99.73\% 落在 μ±3σ 内。这一"68--95--99.7 规则"是统计过程控制和质量管理的常用基准。
- 线性变换不变性:若 X∼N(μ,σ2),则对任意常数 a,b(a=0),有 aX+b∼N(aμ+b,a2σ2)。正态分布在仿射变换下保持正态性。
- 独立可加性:若 X1∼N(μ1,σ12) 与 X2∼N(μ2,σ22) 独立,则 X1+X2∼N(μ1+μ2,σ12+σ22)。这一性质可推广至任意有限个独立正态变量。
- 指数族成员:正态分布属于指数族 (Exponential Family),其充分统计量为 (∑Xi,∑Xi2)。这一属性保证了对 μ 和 σ2 的极大似然估计具有良好的理论性质。
标准正态分布与 Z-变换
将任意正态变量标准化即得标准正态分布 (Standard Normal Distribution):
Z=σX−μ∼N(0,1)
其密度函数简化为 ϕ(z)=2π1e−z2/2,累积分布函数 (CDF) 记为 Φ(z),满足 Φ(−z)=1−Φ(z)。Φ(z) 无闭式解析表达式,其值通过查表或数值积分获取。在假设检验中,z 分数 (Z-score) 衡量观测值偏离均值的标准化距离,是构造 p 值的标准工具。
中心极限定理
正态分布的核心理论支柱是中心极限定理 (Central Limit Theorem, CLT)。设 X1,X2,…,Xn 为独立同分布 (i.i.d.) 的随机变量,均值为 μ,方差为 σ2<∞,则样本均值 Xˉn 的标准化版本收敛于标准正态分布:
σ/nXˉn−μdN(0,1),当 n→∞
CLT 不要求原始分布为正态——这一普适性是正态分布在推断统计中无孔不入的根源。样本量越大,近似精度越高。Lindeberg 条件和 Lyapunov 条件将 CLT 推广至独立但不同分布的情形。在计量经济学中,CLT 是构造置信区间和OLS估计量渐近分布的理论基础。
应用场景
计量经济学与回归分析:经典线性回归模型假设误差项服从正态分布 ui∼N(0,σ2)。这一假设保证了OLS估计量在有限样本下的精确分布性质——OLS 估计量 β^∼N(β,σ2(X′X)−1),进而支撑 t 检验和 F 检验的有效性。在大样本下,即使误差非正态,CLT 亦保证渐近正态性。
金融建模:资产收益率常被建模为正态分布(尽管实际分布通常呈现厚尾 (Heavy Tails) 和偏斜特征)。Black-Scholes-Merton期权定价模型假定对数收益率服从正态分布,即价格服从对数正态分布。VaR (Value at Risk) 在参数法下直接利用正态分位数计算尾部风险。
统计质量控制:Shewhart 控制图以正态分布的 3σ 规则为基础,样本统计量超出 μ±3σ 控制限时发出失控信号,尽管误报率仅约 0.27\%。
自然与社会科学:测量误差、身高体重等生物特征、标准化考试成绩等大量自然和社会现象近似服从正态分布,这是由 CLT——许多微小独立因素叠加作用的结果——所解释的。
衍生分布
以正态分布为母体,可衍生出若干在统计推断中至关重要的分布族:
- 卡方分布 (χ2):若 Z1,…,Zk∼i.i.d.N(0,1),则 ∑i=1kZi2∼χ2(k)。在ANOVA、拟合优度检验和Breusch-Pagan异方差检验中均有核心应用。
- t 分布:若 Z∼N(0,1) 与 V∼χ2(ν) 独立,则 T=V/νZ∼t(ν)。它是小样本下对均值进行推断的基石,自由度较小时尾部厚于正态,随 ν→∞ 收敛于 N(0,1)。
- F 分布:两个独立卡方变量(各自除以自由度)之比服从 F 分布。它是线性回归整体显著性检验、嵌套模型比较 (Chow 检验) 和方差齐性检验的理论基础。
- 对数正态分布 (Log-Normal Distribution):若 lnY∼N(μ,σ2),则 Y 服从对数正态分布,广泛应用于收入分布建模、资产价格建模和可靠性分析。
参数估计与推断
给定样本 X1,…,Xn∼i.i.d.N(μ,σ2),参数的极大似然估计 (MLE) 为:
μ^MLE=Xˉ=n1i=1∑nXi,σ^MLE2=n1i=1∑n(Xi−Xˉ)2
注意方差 MLE 是有偏的(Bessel 校正给出无偏估计量 s2=n−11∑(Xi−Xˉ)2)。MLE 具备一致性和渐近有效性。在正态假设下,Xˉ 与 s2 相互独立(Fisher 引理),这是构造 t 检验统计量的关键前提。
正态性检验:常用方法包括 Jarque-Bera 检验(联合检验偏度和峰度偏差)、Shapiro-Wilk 检验(小样本功效高)和 Kolmogorov-Smirnov 检验(通用分布拟合检验)。QQ 图 (Q-Q Plot) 将样本分位数与正态理论分位数对比,提供直观图形判断。
多元正态分布
多元正态分布 (Multivariate Normal Distribution) 是正态分布向高维空间的关键推广。一个 k 维随机向量 X 服从多元正态,若其密度为:
f(x∣μ,Σ)=(2π)k/2∣Σ∣1/21exp(−21(x−μ)′Σ−1(x−μ))
其中 μ 为 k×1 均值向量,Σ 为 k×k 正定协方差矩阵。多元正态的关键性质包括:各分量的边缘分布均为正态(反之不真);任意线性组合服从一元正态;零协方差等价于独立性(此性质为正态独有,对一般分布不成立)。在计量经济学中,多元正态是 SUR (Seemingly Unrelated Regression) 模型和 VAR 模型误差项的基准假设,也是推导 Wald 检验、LR 检验和 LM 检验等大样本检验统计量分布的出发点。