ARTICLE

对数正态分布

对数正态分布(Log-normal distribution)是一种重要的连续概率分布,其核心定义为:若随机变量 X 的自然对数 X 服从正态分布,则 X 服从对数正态分布。换言之,若 Y = X N( , ^2),则 X Lognormal( , ^2),其中参数 和 分别对应 X 的均值与标准差,而非 X 本身的均值与标准差。这一分布因其与非负数据和乘法

浏览 10 更新 2025-10-26

对数正态分布(Log-normal distribution)是一种重要的连续概率分布,其核心定义为:若随机变量 XX 的自然对数 lnX\ln X 服从正态分布,则 XX 服从对数正态分布。换言之,若 Y=lnXN(μ,σ2)Y = \ln X \sim \mathcal{N}(\mu, \sigma^2),则 XLognormal(μ,σ2)X \sim \operatorname{Lognormal}(\mu, \sigma^2),其中参数 μ\muσ\sigma 分别对应 lnX\ln X 的均值与标准差,而非 XX 本身的均值与标准差。这一分布因其与非负数据和乘法过程的天然联系,在金融、经济、自然科学和工程领域有着极为广泛的应用,是统计学中最重要的分布之一。

数学定义

XX 为正连续随机变量,其概率密度函数(PDF)为:

fX(x)=1xσ2πexp((lnxμ)22σ2),x>0f_X(x) = \frac{1}{x\sigma\sqrt{2\pi}} \exp\left(-\frac{(\ln x - \mu)^2}{2\sigma^2}\right), \quad x > 0

与正态分布的 PDF 相比,分母多出因子 xx,反映出对数变换带来的尺度变化。累积分布函数(CDF)为:

FX(x)=Φ(lnxμσ),x>0F_X(x) = \Phi\left(\frac{\ln x - \mu}{\sigma}\right), \quad x > 0

其中 Φ()\Phi(\cdot) 为标准正态分布的累积分布函数。这一简洁关系使得所有关于正态分布的计算工具均可直接用于对数正态分布。

分位数

由于 CDF 的简洁形式,对数正态分布的分位数可通过正态分布的分位数直接求得。设 zpz_p 为标准正态分布的 pp 分位数,则对数正态分布的 pp 分位数为:

xp=exp(μ+σzp)x_p = \exp(\mu + \sigma z_p)

特别地,中位数(p=0.5p = 0.5)为 x0.5=eμx_{0.5} = e^{\mu}。95\% 置信区间为 [eμ1.96σ,  eμ+1.96σ][e^{\mu - 1.96\sigma},\; e^{\mu + 1.96\sigma}]。这种简便性使对数正态分布在统计推断和置信区间构建中具有显著优势。

基本性质

矩与统计量

对数正态分布的均值与方差分别为:

E[X]=exp ⁣(μ+σ22),Var[X]=(eσ21)e2μ+σ2\mathbb{E}[X] = \exp\!\left(\mu + \frac{\sigma^2}{2}\right),\quad \operatorname{Var}[X] = \left(e^{\sigma^2} - 1\right) e^{2\mu + \sigma^2}

中位数为 eμe^{\mu},众数为 eμσ2e^{\mu - \sigma^2}。由此可知该分布呈现显著的右偏特征:均值 > 中位数 > 众数,且偏度随 σ\sigma 增大而加剧。当 σ\sigma 较小时,均值与中位数接近;当 σ\sigma 较大时,均值远大于中位数,反映出极端值对均值的影响。

矩母函数与特征

对数正态分布的矩母函数(MGF)不存在,因为虽然其所有阶矩均有限,但指数阶矩发散。这一特性使其区别于正态分布,在理论推导中需要特别注意,例如在中心极限定理的推广中通常需要替换矩母函数为特征函数进行论证。

乘积封闭性

X1,X2,,XnX_1, X_2, \dots, X_n 为独立的对数正态随机变量,参数分别为 (μi,σi2)(\mu_i, \sigma_i^2),则其乘积仍服从对数正态分布:

i=1nXiLognormal ⁣(i=1nμi,  i=1nσi2)\prod_{i=1}^n X_i \sim \operatorname{Lognormal}\!\left(\sum_{i=1}^n \mu_i,\; \sum_{i=1}^n \sigma_i^2\right)

这一性质在金融和经济学中有重要应用——资产价格的连续复利收益率具有可加性,使得多期收益的分布易于刻画。反之,独立对数正态变量的商也服从对数正态分布,参数为对应参数的差。

与正态分布的关系

对数正态分布与正态分布通过对数变换紧密联系,这种关系使其在建模非负且右偏的数据时尤为有用。具体而言,若 XLognormal(μ,σ2)X \sim \operatorname{Lognormal}(\mu, \sigma^2),则 lnXN(μ,σ2)\ln X \sim \mathcal{N}(\mu, \sigma^2),反之亦然。这一双向关系为统计建模提供了极大的灵活性。

两者之间还存在以下重要差异。第一,支撑集不同:正态分布支撑整个实数轴,可取负值;对数正态分布仅取正数,更符合许多实际变量的非负约束。第二,对称性不同:正态分布关于均值对称;对数正态分布始终右偏,偏度随 σ\sigma 增大而加剧。第三,尾部行为不同:即便 σ\sigma 很小,对数正态分布的右尾仍比正态分布更厚,即极端值出现的概率更高,这使其成为金融风险建模的常用工具。

σ0\sigma \to 0 时,对数正态分布退化趋于退化分布(集中于 eμe^{\mu} 处)。当 σ\sigma 较小时,分布形态近似对称,接近正态分布;当 σ\sigma 较大时,分布尾部显著拉长,呈现明显的右偏形态。

参数估计

给定独立同分布样本 {x1,x2,,xn}\{x_1, x_2, \dots, x_n\},常用极大似然估计(MLE)法。令 yi=lnxiy_i = \ln x_i,则:

μ^=1ni=1nyi,σ^2=1ni=1n(yiμ^)2\hat{\mu} = \frac{1}{n}\sum_{i=1}^n y_i,\quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (y_i - \hat{\mu})^2

即先将样本取对数,再计算对数样本的均值和方差即可。这一简便性是对数正态分布广泛使用的重要原因之一。需注意 σ^2\hat{\sigma}^2σ2\sigma^2 的有偏估计,若需无偏估计应使用 1n1(yiμ^)2\frac{1}{n-1}\sum (y_i - \hat{\mu})^2。在大样本情形下,两者差异可忽略不计。矩估计法亦可使用:令样本均值等于 exp(μ+σ2/2)\exp(\mu + \sigma^2/2),样本方差等于 (eσ21)e2μ+σ2(e^{\sigma^2} - 1)e^{2\mu + \sigma^2},联立求解 μ\muσ2\sigma^2,但矩估计的效率通常低于极大似然估计。

主要应用领域

金融与经济

在金融领域,股票价格常用几何布朗运动描述,其价格在任意有限时刻服从对数正态分布,这是布莱克-斯科尔斯期权定价模型的基本假设之一。实际中,资产收益率常被假设为独立同分布的正态随机变量,累积收益率则服从对数正态分布。个人收入的横截面数据常呈右偏分布,对数正态分布是拟合收入分布的经典模型——大量实证研究表明,中低收入群体常较好地拟合对数正态分布,而高收入群体则更接近帕累托分布。此外,VaR(在险价值)和期望损失等风险度量指标也常基于对数正态分布假设进行计算。

自然科学与工程

在地质学中,岩石颗粒、粉砂颗粒和尘埃粒子的尺寸分布常呈现对数正态特征,这一现象源于颗粒破碎过程中的乘法效应。在生物医学中,人体血液中某些代谢物浓度、潜伏期时长、细菌群落丰度等生理指标常服从对数正态分布。在可靠性工程中,电子元件的寿命数据常用对数正态分布建模,尤其适用于早期失效和磨损失效并存的情形。在环境科学中,大气污染物浓度、水质指标的监测数据也常呈现对数正态分布特征。

其他领域

在语言学中,词频分布和句子长度的分布均可通过对数正态模型描述。在信息科学中,网页访问时间和文件大小分布等也常呈现对数正态特征。

与其他分布的关系

对数正态分布与正态分布通过对数变换直接关联。其尾部衰减速度比帕累托分布更快,但比指数分布更慢,处于两者之间。在某些参数下,伽马分布与对数正态分布形状相似,但对数正态分布的尾部更厚。对数逻辑斯蒂分布与对数正态分布类似,但尾部更厚,适用于不同场景的生存分析。

模拟与随机数生成

生成对数正态分布随机数的方法十分简单:从标准正态分布生成随机数 zN(0,1)z \sim \mathcal{N}(0,1),计算 y=μ+σzy = \mu + \sigma z,再令 x=eyx = e^{y},则 xLognormal(μ,σ2)x \sim \operatorname{Lognormal}(\mu, \sigma^2)。绝大多数统计软件(R、Python 的 NumPy、MATLAB 等)均内置了对数正态分布的随机数生成函数。

历史与注记

对数正态分布最早在 19 世纪由英国科学家弗朗西斯·高尔顿(Francis Galton)在研究自然界中"几何平均"的概念时提及。20 世纪初,统计学家们系统研究了该分布的性质,并在经济学领域得到广泛应用。1970 年代,布莱克-斯科尔斯期权定价模型的提出更是将对数正态分布推向金融建模的核心地位。尽管对数正态分布在金融建模中应用广泛,实证研究表明实际资产收益率往往具有比对数正态分布更厚的尾部(即"肥尾"现象),因此在实际应用中常需结合极值理论或其他厚尾分布进行风险度量。

参考文献

  • Aitchison, J., \& Brown, J. A. C. (1957). *The Lognormal Distribution*. Cambridge University Press.
  • Crow, E. L., \& Shimizu, K. (1988). *Lognormal Distributions: Theory and Applications*. Marcel Dekker.
  • Black, F., \& Scholes, M. (1973). The Pricing of Options and Corporate Liabilities. *Journal of Political Economy*, 81(3), 637–654.
  • Limpert, E., Stahel, W. A., \& Abbt, M. (2001). Log-normal Distributions across the Sciences: Keys and Clues. *BioScience*, 51(5), 341–352.