ARTICLE

拉普拉斯分布

拉普拉斯分布 (Laplace Distribution) 拉普拉斯分布 (Laplace Distribution),也称双指数分布 (Double Exponential Distribution),是概率论和统计学中的一种连续概率分布,以数学家 /wiki/皮埃尔-西蒙·拉普拉斯皮埃尔-西蒙·拉普拉斯命名。其最显著的特征是在均值处有一个尖锐的峰值,并且

浏览 35 更新 2025-10-25

拉普拉斯分布 (Laplace Distribution)

拉普拉斯分布 (Laplace Distribution),也称双指数分布 (Double Exponential Distribution),是概率论统计学中的一种连续概率分布,以数学家皮埃尔-西蒙·拉普拉斯命名。其最显著的特征是在均值处有一个尖锐的峰值,并且拥有比正态分布更重的尾部 (heavy tails),这使得它在处理含有异常值的数据时表现出更好的稳健性。拉普拉斯分布在机器学习(特别是与L1正则化相关的模型)、信号处理稳健统计中有着广泛应用。

概率密度函数与累积分布函数

服从拉普拉斯分布的随机变量 X X ,其概率密度函数 (PDF) 由位置参数 μ \mu 尺度参数 b>0 b > 0 定义:

f(xμ,b)=12bexp(xμb)f(x \mid \mu, b) = \frac{1}{2b} \exp\left(-\frac{|x - \mu|}{b}\right)

其中 μ \mu 同时也是该分布的均值中位数众数b b 控制分布的离散程度,b b 越大则分布越分散、尾部越重。该函数围绕 μ \mu 对称,概率密度随 xμ |x - \mu| 的增加呈指数衰减——这正是"双指数分布"名称的由来。

累积分布函数 (CDF) 为分段函数:

F(x)={12exp(xμb),x<μ112exp(xμb),xμF(x) = \begin{cases} \frac{1}{2} \exp\left(\frac{x - \mu}{b}\right), & x < \mu \\ 1 - \frac{1}{2} \exp\left(-\frac{x - \mu}{b}\right), & x \ge \mu \end{cases}

x=μ x = \mu F(μ)=0.5 F(\mu) = 0.5 ,再次印证了 μ \mu 的中位数性质。

主要数字特征

拉普拉斯分布的主要统计性质如下:均值、中位数和众数均为 μ \mu ,反映了分布的完全对称性;方差Var(X)=2b2 \text{Var}(X) = 2b^2 ,标准差 σ=2b \sigma = \sqrt{2}\,b 偏度为 0;峰度为 6,超额峰度为 3,属于尖峰态 (Leptokurtic) 分布——与超额峰度为 0 的正态分布相比,它在均值处有更高的峰值且尾部更重,意味着极端值出现的概率更高。其矩生成函数MX(t)=eμt/(1b2t2) M_X(t) = e^{\mu t} / (1 - b^2 t^2) ,适用于 t<1/b |t| < 1/b

与指数分布和正态分布的关系

拉普拉斯分布与指数分布密切相关:若 X1,X2Exp(λ) X_1, X_2 \sim \text{Exp}(\lambda) 独立同分布,则 Y=X1X2 Y = X_1 - X_2 服从位置参数为 0 0 、尺度参数 b=1/λ b = 1/\lambda 的拉普拉斯分布——即拉普拉斯分布可看作两个背对背放置的指数分布之差。

与正态分布的对比尤为重要。正态分布呈平滑"钟形",而拉普拉斯分布在均值处有尖顶且尾部更重。在统计建模中,这一差异反映在对数似然函数上:正态分布的对数概率密度与误差的平方 (xμ)2 (x-\mu)^2 成正比,而拉普拉斯分布与误差的绝对值 xμ |x-\mu| 成正比。这直接对应最小二乘法最小绝对偏差 (LAD) 两种回归方法——假设误差服从拉普拉斯分布时,最大似然估计等价于 LAD,对异常值更为稳健。

贝叶斯推断与 Lasso 回归

拉普拉斯分布在贝叶斯推断中扮演着核心角色。在线性回归中,若为系数 β \beta 设定均值为 0 的拉普拉斯先验分布,则最大后验估计 (MAP) 等价于在损失函数中加入L1正则化项。这正是Lasso回归的贝叶斯解释:拉普拉斯先验在零点处的尖峰特性会将不重要的系数精确压缩到零,从而实现特征选择和模型简化,得到稀疏模型。这与正态先验(对应岭回归的 L2 正则化)形成鲜明对比——后者只会使系数趋近于零,但不会恰好为零。

参数估计

拉普拉斯分布参数的最大似然估计具有直观且稳健的性质:位置参数 μ \mu 的 MLE 是数据的样本中位数,尺度参数 b b 的 MLE 是数据点到样本中位数的平均绝对偏差。这两个估计量本身都是稳健统计量,再次体现了拉普拉斯分布与稳健性之间的深刻联系。