ARTICLE
拉普拉斯分布
拉普拉斯分布 (Laplace Distribution) 拉普拉斯分布 (Laplace Distribution),也称双指数分布 (Double Exponential Distribution),是概率论和统计学中的一种连续概率分布,以数学家 /wiki/皮埃尔-西蒙·拉普拉斯皮埃尔-西蒙·拉普拉斯命名。其最显著的特征是在均值处有一个尖锐的峰值,并且
拉普拉斯分布 (Laplace Distribution)
拉普拉斯分布 (Laplace Distribution),也称双指数分布 (Double Exponential Distribution),是概率论和统计学中的一种连续概率分布,以数学家皮埃尔-西蒙·拉普拉斯命名。其最显著的特征是在均值处有一个尖锐的峰值,并且拥有比正态分布更重的尾部 (heavy tails),这使得它在处理含有异常值的数据时表现出更好的稳健性。拉普拉斯分布在机器学习(特别是与L1正则化相关的模型)、信号处理和稳健统计中有着广泛应用。
概率密度函数与累积分布函数
服从拉普拉斯分布的随机变量 ,其概率密度函数 (PDF) 由位置参数 和尺度参数 定义:
其中 同时也是该分布的均值、中位数和众数; 控制分布的离散程度, 越大则分布越分散、尾部越重。该函数围绕 对称,概率密度随 的增加呈指数衰减——这正是"双指数分布"名称的由来。
累积分布函数 (CDF) 为分段函数:
在 处 ,再次印证了 的中位数性质。
主要数字特征
拉普拉斯分布的主要统计性质如下:均值、中位数和众数均为 ,反映了分布的完全对称性;方差为 ,标准差 ;偏度为 0;峰度为 6,超额峰度为 3,属于尖峰态 (Leptokurtic) 分布——与超额峰度为 0 的正态分布相比,它在均值处有更高的峰值且尾部更重,意味着极端值出现的概率更高。其矩生成函数为 ,适用于 。
与指数分布和正态分布的关系
拉普拉斯分布与指数分布密切相关:若 独立同分布,则 服从位置参数为 、尺度参数 的拉普拉斯分布——即拉普拉斯分布可看作两个背对背放置的指数分布之差。
与正态分布的对比尤为重要。正态分布呈平滑"钟形",而拉普拉斯分布在均值处有尖顶且尾部更重。在统计建模中,这一差异反映在对数似然函数上:正态分布的对数概率密度与误差的平方 成正比,而拉普拉斯分布与误差的绝对值 成正比。这直接对应最小二乘法与最小绝对偏差 (LAD) 两种回归方法——假设误差服从拉普拉斯分布时,最大似然估计等价于 LAD,对异常值更为稳健。
贝叶斯推断与 Lasso 回归
拉普拉斯分布在贝叶斯推断中扮演着核心角色。在线性回归中,若为系数 设定均值为 0 的拉普拉斯先验分布,则最大后验估计 (MAP) 等价于在损失函数中加入L1正则化项。这正是Lasso回归的贝叶斯解释:拉普拉斯先验在零点处的尖峰特性会将不重要的系数精确压缩到零,从而实现特征选择和模型简化,得到稀疏模型。这与正态先验(对应岭回归的 L2 正则化)形成鲜明对比——后者只会使系数趋近于零,但不会恰好为零。
参数估计
拉普拉斯分布参数的最大似然估计具有直观且稳健的性质:位置参数 的 MLE 是数据的样本中位数,尺度参数 的 MLE 是数据点到样本中位数的平均绝对偏差。这两个估计量本身都是稳健统计量,再次体现了拉普拉斯分布与稳健性之间的深刻联系。