ARTICLE
最小绝对偏差
最小绝对偏差 (Least Absolute Deviations, LAD) 最小绝对偏差 (Least Absolute Deviations, LAD),也称L1回归或中位数回归,是一种通过最小化残差绝对值之和来估计回归参数的稳健统计方法。与经典的普通最小二乘法(OLS,最小化残差平方和)不同,LAD对响应变量中的异常值具有天然的抵抗力,因为绝对值惩罚
最小绝对偏差 (Least Absolute Deviations, LAD)
最小绝对偏差 (Least Absolute Deviations, LAD),也称L1回归或中位数回归,是一种通过最小化残差绝对值之和来估计回归参数的稳健统计方法。与经典的普通最小二乘法(OLS,最小化残差平方和)不同,LAD对响应变量中的异常值具有天然的抵抗力,因为绝对值惩罚对极端偏差的放大效应远小于平方惩罚。从决策论角度看,OLS估计的是条件均值,而LAD估计的是条件中位数,这一区别是理解两者差异的关键。
历史渊源
LAD的历史早于OLS。1757年,Roger Joseph Boscovich在试图从多次测量中确定地球子午线长度时,提出了最小化绝对偏差之和的思想——这比Gauss与Legendre在19世纪初系统发展最小二乘法早了半个世纪。然而,由于绝对值函数在零点处不可微导致计算困难,而平方损失函数光滑且具有简洁的正规方程(normal equations),OLS在计算工具匮乏的时代占据了主流。直到20世纪中叶线性规划算法的成熟——特别是单纯形法的出现——LAD的计算瓶颈才被突破,重新进入统计学主流视野。
数学形式
给定线性模型(),LAD估计量定义为以下优化问题的解:
其中为L1范数。这一目标函数是凸的但在每个处不可微,因此不存在封闭解。LAD的最优性条件由次梯度(subgradient)刻画:零向量属于目标函数在处的次微分,即存在向量,其分量(当第个残差为零时)或(当残差非零时),使得。这一条件等价于:对于任意维子空间,经过的超平面两侧的绝对残差权重达到平衡。
线性规划转化
LAD问题可等价转化为线性规划。引入非负辅助变量表示正残差和负残差,使且。则LAD等价于:
这是一个标准线性规划问题,可用单纯形法或内点法高效求解。Wagner(1959)最早明确建立了LAD与线性规划的这一联系,为LAD的实用化铺平了道路。
与OLS的核心对比
LAD与OLS的本质差异体现在三个维度。其一,离群值敏感性:OLS中单个残差被平方放大(若残差为10则贡献为100),一个极端离群点便可大幅扭曲估计结果;LAD中该贡献仅为10,影响被线性化。统计学术语中,LAD的影响函数有界而OLS的影响函数无界——这使得LAD的崩溃点(breakdown point)显著高于OLS。其二,估计对象:OLS给出条件均值,LAD给出条件中位数。当误差分布对称时两者趋近一致;当误差非对称或有离群点时两者分道扬镳——中位数总是稳健的。其三,效率权衡:当误差精确服从正态分布时,OLS是有效估计量(达到Cramér-Rao下界),LAD效率约为OLS的;但当误差服从拉普拉斯分布()时,LAD反转为最大似然估计,效率超越OLS。
大样本性质
在适当正则条件下(误差具有唯一的中位数零且设计矩阵满秩),LAD估计量具有一致性和渐近正态性:
其中是误差分布在零点的概率密度函数值。这一结果揭示了一个关键事实:LAD的渐近效率取决于误差在零点的密度——密度越大(即误差更集中在零附近),LAD越精确。与OLS的渐近协方差相比,两者的相对效率比为。实践中,需通过核密度估计或基于残差的自举法估计,这使LAD的协方差矩阵推断比OLS更复杂。
计算与现代实现
除线性规划外,现代计算常采用以下方法。Barrodale-Roberts算法(1973)是专为LAD定制的单纯形法变体,利用设计矩阵的结构大幅减少迭代次数。迭代加权最小二乘法(IRLS)将LAD表为加权OLS的极限:选取权重,迭代求解加权最小二乘直至收敛。该方法简单易编程,但残差接近零时权重会趋于无穷——实践中需加入小的正则化项使权重有界。此外,LAD是分位数回归在(中位数分位数)处的特例,所有分位数回归的算法(如基于线性规划的内点法、MM算法)均可直接用于LAD。
推广与经济学应用
分位数回归(Koenker \& Bassett, 1978)将LAD从条件中位数推广至任意条件分位数:最小化,其中为折弯损失函数(check function)。这使研究者得以刻画自变量对响应变量整个条件分布的影响,而非仅对中心趋势的影响。
在劳动经济学中,LAD和分位数回归被广泛用于工资方程的估计,以分析教育、经验等因素对不同工资分位数的异质性影响——例如,教育回报率在工资分布的低分位和高分位是否不同。在金融计量中,LAD用于估计CAPM的Beta系数,比OLS估计更不易受极端收益日的干扰。在政策评估中,LAD方法用于估计处理效应在不同分位数上的分布效应,弥补了仅关注平均处理效应的不足。
尽管LAD在稳健性上优于OLS,其局限亦需注意:当离群值出现在预测变量(杠杆点)而非响应变量中时,LAD的稳健性有限——此时需借助高崩溃点方法(如LMS、LTS)或MM估计;当误差分布确实接近正态时,OLS的效率优势不可忽视;多元LAD的最优解可能不唯一(目标函数在参数空间的分段线性区域上可能出现平坦区域),影响了估计的确定性。