ARTICLE
最小绝对偏差回归
最小绝对偏差回归(Least Absolute Deviation Regression, LAD 回归),亦称 L₁ 回归或绝对偏差最小化,是一种通过最小化因变量观测值与预测值之间绝对偏差之和来估计回归系数的方法。与经典最小二乘法(OLS)不同,LAD 回归的目标函数为 ∑|yᵢ − xᵢᵀβ|,而非 ∑(yᵢ − xᵢᵀβ)²。这一差异看似微小,却赋予了
最小绝对偏差回归(Least Absolute Deviation Regression, LAD 回归),亦称 L₁ 回归或绝对偏差最小化,是一种通过最小化因变量观测值与预测值之间绝对偏差之和来估计回归系数的方法。与经典最小二乘法(OLS)不同,LAD 回归的目标函数为 ∑|yᵢ − xᵢᵀβ|,而非 ∑(yᵢ − xᵢᵀβ)²。这一差异看似微小,却赋予了 LAD 截然不同的统计性质和应用场景。
基本定义与数学表述
设线性模型为 yᵢ = xᵢᵀβ + εᵢ,其中 i = 1, …, n,yᵢ 为因变量,xᵢ 为 p 维自变量向量,β 为待估参数向量,εᵢ 为随机误差项。LAD 估计量 β̂ 定义为如下优化问题的解:
该目标函数关于 β 是凸的但不光滑,在残差为零的点处不可微。这一非光滑性使得 LAD 的求解需要使用特殊的优化技术,而非简单的求导运算。
LAD 回归与分位数回归有着深刻联系。当分位数回归的分位点设为零点五(中位数)时,其目标函数中使用的 check 函数简化为绝对偏差函数。因此,LAD 估计量本质上是条件中位数回归——它估计的是给定自变量的条件下,因变量的条件中位数,而非条件均值。对于对称分布的误差,条件中位数等于条件均值;但对于偏态分布,两者存在差异。
LAD 与 OLS 的全面比较
对异常值的稳健性。OLS 使用残差的平方,这赋予了大幅偏离的观测点不成比例的影响力——一个极端异常值即可将回归线向自身方向大幅度拉动。LAD 使用残差的绝对值,对异常值的惩罚呈线性增长,而非指数级增长。从崩溃点的角度看,OLS 的崩溃点为零,意味着单个污染点即可将估计量破坏至任意值;LAD 的崩溃点理论上可达零点五,即当数据中接近一半的观测值被污染时,估计量仍能保持有界。这一性质使 LAD 在存在离群值或重尾误差的数据中表现优异。
统计效率。当误差项服从正态分布时,OLS 在高斯-马尔可夫定理意义下为最佳线性无偏估计量,其渐近相对效率达到百分之百。在此条件下,LAD 的渐近相对效率约为百分之六十四——这意味着 LAD 需要约一点五七倍的样本量,方能达到与 OLS 相同的参数估计精度。然而,当误差服从拉普拉斯分布时,LAD 恰好是最大似然估计量,效率反超 OLS。对于具有重尾特征的误差分布,如自由度较小的 t 分布,LAD 的效率往往优于 OLS,因为 LAD 不受极端值方差异常放大的影响。
假设条件。OLS 的有效性依赖于若干严格假设:误差项零条件均值、同方差性、误差独立且服从正态分布(有限样本推断时)。LAD 的假设条件则宽松得多:仅要求误差项在零点处具有连续且为正的概率密度函数,不要求有限方差,也不要求误差服从任何特定参数分布。这使得 LAD 成为异方差和重尾误差场景下更为安全的建模选择。
计算复杂度。OLS 拥有优雅的解析闭式解 β̂ = (XᵀX)⁻¹Xᵀy,计算快速而直接。LAD 不存在类似的闭式解,需要通过数值优化方法求解。常用的计算方案包括:基于线性规划的单纯形法(Simplex Method),具有可靠的全局收敛性但随样本量增加计算量增长较快;内点法(Interior Point Method),在大样本场景下计算效率更高;迭代加权最小二乘法(IRLS),通过反复求解加权最小二乘逼近 LAD 解,实现简单且适用于中等规模问题。在现代计算条件下,这些算法的实际运行时间与 OLS 相差不大,即便处理数万观测值的数据集也仅在秒级完成。
渐近统计性质
在经典假设下,LAD 估计量具有一致性和渐近正态性:
√n(β̂ − β) → N(0, τ²·Q⁻¹)
其中 τ² = [2f(0)]⁻²,f(0) 为误差概率密度函数在零点处的值,Q = lim\_{n→∞} n⁻¹XᵀX。该渐近方差公式揭示了一个关键特点:LAD 估计量的精度取决于误差分布在零点附近的密度——零点处密度越高,估计越精确。这与 OLS 不同,OLS 的精度取决于误差分布的总体方差。这一差异意味着 LAD 和 OLS 对数据不同方面的信息敏感。
由于渐近方差涉及未知的 f(0),参数推断不能直接使用 OLS 的标准误公式。实践中常用以下方法进行推断:核密度估计法,从残差中估计 f(0);分位数回归自助法(bootstrapping),包括残差自助法和配对自助法(xy-pair bootstrap);以及秩检验法,基于符号检验的非参数推断策略。
实际应用场景
金融经济学。金融资产收益率序列通常呈现尖峰厚尾特征,且常受极端事件(如市场崩盘、金融危机)的影响。LAD 回归在估计资本资产定价模型(CAPM)的贝塔系数、构建因子模型以及计算风险价值时,能够提供比 OLS 更为稳定的估计量。
生物统计学与医学。医学数据中常出现测量误差、记录错误和生物变异的极端值。LAD 回归在药物剂量-反应关系建模、生物标志物筛选以及医学影像分析中具有广泛应用。例如,在基因表达数据分析中,LAD 能有效对抗技术噪声产生的异常表达值。
工程与信号处理。在通信系统、雷达信号处理和音频分析中,脉冲噪声(impulse noise)的普遍存在使 LAD 成为工程师的有力工具。LAD 滤波器在处理具有重尾噪声的信号时,性能显著优于基于最小二乘的滤波器。
环境与地理科学。环境数据常包含由于测量仪器故障、天气极端条件或采样误操作造成的离群值。LAD 回归在空气质量建模、水文分析和气候趋势估计中提供了更为稳健的参数估计。
计量经济学。当误差项服从拉普拉斯分布或存在异方差且分布厚尾时,LAD 是自然的选择。LAD 在劳动经济学中的工资方程估计、发展经济学中的增长回归分析等领域都有广泛使用。
局限性与注意事项
尽管 LAD 具有突出的稳健性,它并非万能工具。首先,当样本量较小或自变量存在近似共线性时,LAD 的解可能非唯一,模型的可解释性降低。其次,由于目标函数不可微,LAD 的渐近理论分析比 OLS 复杂,有限样本性质更难刻画。第三,LAD 估计的是条件中位数而非条件均值——如果研究问题关注的是自变量对因变量均值的影响,那么 LAD 提供的答案可能不直接对应研究关切。第四,尽管 LAD 对 y 方向的异常值具有稳健性,它对杠杆点(leverage point,即在自变量空间远离中心的观测值)的抵抗力有限,需要结合其他诊断方法使用。
拓展方向
LAD 回归已成为更广泛方法家族的基石。分位数回归将 LAD 扩展至任意分位点,全面刻画条件分布的形状。正则化 LAD(如 LAD-Lasso 和 LAD-Elastic Net)将 L₁ 或 L₂ 惩罚项引入目标函数,在高维数据场景中同时实现变量选择和稳健估计。加权 LAD 为不同观测值赋予不同权重,在异方差结构已知的情况下提升效率。非线性 LAD 将 LAD 的概念拓展至非线性回归模型,通过核方法或样条基函数捕捉复杂数据关系。贝叶斯 LAD 通过假设拉普拉斯似然和适当的先验分布,在贝叶斯框架下实现 LAD 推断。