ARTICLE

最小绝对偏差

最小绝对偏差 (Least Absolute Deviations, LAD) 最小绝对偏差 (Least Absolute Deviations, LAD),也称L1回归或中位数回归,是一种通过最小化残差绝对值之和来估计回归参数的稳健统计方法。与经典的普通最小二乘法(OLS,最小化残差平方和)不同,LAD对响应变量中的异常值具有天然的抵抗力,因为绝对值惩罚

浏览 0 更新 2025-10-26

最小绝对偏差 (Least Absolute Deviations, LAD)

最小绝对偏差 (Least Absolute Deviations, LAD),也称L1回归中位数回归,是一种通过最小化残差绝对值之和来估计回归参数的稳健统计方法。与经典的普通最小二乘法(OLS,最小化残差平方和)不同,LAD对响应变量中的异常值具有天然的抵抗力,因为绝对值惩罚对极端偏差的放大效应远小于平方惩罚。从决策论角度看,OLS估计的是条件均值E(YX)E(Y|X),而LAD估计的是条件中位数median(YX)\text{median}(Y|X),这一区别是理解两者差异的关键。

历史渊源

LAD的历史早于OLS。1757年,Roger Joseph Boscovich在试图从多次测量中确定地球子午线长度时,提出了最小化绝对偏差之和的思想——这比Gauss与Legendre在19世纪初系统发展最小二乘法早了半个世纪。然而,由于绝对值函数在零点处不可微导致计算困难,而平方损失函数光滑且具有简洁的正规方程(normal equations),OLS在计算工具匮乏的时代占据了主流。直到20世纪中叶线性规划算法的成熟——特别是单纯形法的出现——LAD的计算瓶颈才被突破,重新进入统计学主流视野。

数学形式

给定线性模型yi=xiβ+ϵiy_i=x_i'\beta+\epsilon_ii=1,,ni=1,\ldots,n),LAD估计量定义为以下优化问题的解:

β^LAD=argminβi=1nyixiβ=argminβyXβ1\hat{\beta}_{\text{LAD}}=\arg\min_{\beta}\sum_{i=1}^{n}|y_i-x_i'\beta|=\arg\min_{\beta}\|y-X\beta\|_1

其中1\|\cdot\|_1L1范数。这一目标函数是凸的但在每个yi=xiβy_i=x_i'\beta处不可微,因此不存在封闭解。LAD的最优性条件由次梯度(subgradient)刻画:零向量属于目标函数在β^LAD\hat{\beta}_{\text{LAD}}处的次微分,即存在向量s\mathbf{s},其分量si[1,1]s_i\in[-1,1](当第ii个残差为零时)或si=sgn(yixiβ^)s_i=\text{sgn}(y_i-x_i'\hat{\beta})(当残差非零时),使得Xs=0X'\mathbf{s}=0。这一条件等价于:对于任意p1p-1维子空间,经过β^LAD\hat{\beta}_{\text{LAD}}的超平面两侧的绝对残差权重达到平衡。

线性规划转化

LAD问题可等价转化为线性规划。引入非负辅助变量ui,vi0u_i,v_i\ge0表示正残差和负残差,使yixiβ=uiviy_i-x_i'\beta=u_i-v_iyixiβ=ui+vi|y_i-x_i'\beta|=u_i+v_i。则LAD等价于:

minβ,u,vi=1n(ui+vi)s.t.yixiβui+vi=0,  ui0,  vi0\min_{\beta,u,v}\sum_{i=1}^{n}(u_i+v_i)\quad\text{s.t.}\quad y_i-x_i'\beta-u_i+v_i=0,\;u_i\ge0,\;v_i\ge0

这是一个标准线性规划问题,可用单纯形法或内点法高效求解。Wagner(1959)最早明确建立了LAD与线性规划的这一联系,为LAD的实用化铺平了道路。

与OLS的核心对比

LAD与OLS的本质差异体现在三个维度。其一,离群值敏感性:OLS中单个残差被平方放大(若残差为10则贡献为100),一个极端离群点便可大幅扭曲估计结果;LAD中该贡献仅为10,影响被线性化。统计学术语中,LAD的影响函数有界而OLS的影响函数无界——这使得LAD的崩溃点(breakdown point)显著高于OLS。其二,估计对象:OLS给出条件均值,LAD给出条件中位数。当误差分布对称时两者趋近一致;当误差非对称或有离群点时两者分道扬镳——中位数总是稳健的。其三,效率权衡:当误差精确服从正态分布时,OLS是有效估计量(达到Cramér-Rao下界),LAD效率约为OLS的2/π63.7%2/\pi\approx63.7\%;但当误差服从拉普拉斯分布f(ϵ)eϵ/σf(\epsilon)\propto e^{-|\epsilon|/\sigma})时,LAD反转为最大似然估计,效率超越OLS。

大样本性质

在适当正则条件下(误差具有唯一的中位数零且设计矩阵满秩),LAD估计量具有一致性渐近正态性

n(β^LADβ0)dN(0,14f(0)2(limnXXn)1)\sqrt{n}(\hat{\beta}_{\text{LAD}}-\beta_0)\xrightarrow{d}N\left(0,\frac{1}{4f(0)^2}\cdot\left(\lim_{n\to\infty}\frac{X'X}{n}\right)^{-1}\right)

其中f(0)f(0)是误差分布在零点的概率密度函数值。这一结果揭示了一个关键事实:LAD的渐近效率取决于误差在零点的密度——密度越大(即误差更集中在零附近),LAD越精确。与OLS的渐近协方差σ2(XX)1\sigma^2(X'X)^{-1}相比,两者的相对效率比为4f(0)2σ24f(0)^2\sigma^2。实践中,f(0)f(0)需通过核密度估计或基于残差的自举法估计,这使LAD的协方差矩阵推断比OLS更复杂。

计算与现代实现

除线性规划外,现代计算常采用以下方法。Barrodale-Roberts算法(1973)是专为LAD定制的单纯形法变体,利用设计矩阵的结构大幅减少迭代次数。迭代加权最小二乘法(IRLS)将LAD表为加权OLS的极限:选取权重wi(k)=1/ri(k)w_i^{(k)}=1/|r_i^{(k)}|,迭代求解加权最小二乘直至收敛。该方法简单易编程,但残差接近零时权重会趋于无穷——实践中需加入小的正则化项δ>0\delta>0使权重有界。此外,LAD是分位数回归τ=0.5\tau=0.5(中位数分位数)处的特例,所有分位数回归的算法(如基于线性规划的内点法、MM算法)均可直接用于LAD。

推广与经济学应用

分位数回归(Koenker \& Bassett, 1978)将LAD从条件中位数推广至任意条件分位数τ(0,1)\tau\in(0,1):最小化ρτ(yixiβ)\sum\rho_\tau(y_i-x_i'\beta),其中ρτ(u)=u(τ1u<0)\rho_\tau(u)=u(\tau-\mathbf{1}_{u<0})为折弯损失函数(check function)。这使研究者得以刻画自变量对响应变量整个条件分布的影响,而非仅对中心趋势的影响。

劳动经济学中,LAD和分位数回归被广泛用于工资方程的估计,以分析教育、经验等因素对不同工资分位数的异质性影响——例如,教育回报率在工资分布的低分位和高分位是否不同。在金融计量中,LAD用于估计CAPMBeta系数,比OLS估计更不易受极端收益日的干扰。在政策评估中,LAD方法用于估计处理效应在不同分位数上的分布效应,弥补了仅关注平均处理效应的不足。

尽管LAD在稳健性上优于OLS,其局限亦需注意:当离群值出现在预测变量(杠杆点)而非响应变量中时,LAD的稳健性有限——此时需借助高崩溃点方法(如LMS、LTS)或MM估计;当误差分布确实接近正态时,OLS的效率优势不可忽视;多元LAD的最优解可能不唯一(目标函数在参数空间的分段线性区域上可能出现平坦区域),影响了估计的确定性。