ARTICLE

最小绝对偏差

最小绝对偏差 (Least Absolute Deviations, LAD) 最小绝对偏差 (Least Absolute Deviations, LAD)，也称L1回归或中位数回归，是一种通过最小化残差绝对值之和来估计回归参数的稳健统计方法。与经典的普通最小二乘法（OLS，最小化残差平方和）不同，LAD对响应变量中的异常值具有天然的抵抗力，因为绝对值惩罚

浏览 0 更新 2025-10-26

最小绝对偏差 (Least Absolute Deviations, LAD)

最小绝对偏差 (Least Absolute Deviations, LAD)，也称L1回归或中位数回归，是一种通过最小化残差绝对值之和来估计回归参数的稳健统计方法。与经典的普通最小二乘法（OLS，最小化残差平方和）不同，LAD对响应变量中的异常值具有天然的抵抗力，因为绝对值惩罚对极端偏差的放大效应远小于平方惩罚。从决策论角度看，OLS估计的是条件均值 $E(Y|X)$ ，而LAD估计的是条件中位数 $\text{median}(Y|X)$ ，这一区别是理解两者差异的关键。

历史渊源

LAD的历史早于OLS。1757年，Roger Joseph Boscovich在试图从多次测量中确定地球子午线长度时，提出了最小化绝对偏差之和的思想——这比Gauss与Legendre在19世纪初系统发展最小二乘法早了半个世纪。然而，由于绝对值函数在零点处不可微导致计算困难，而平方损失函数光滑且具有简洁的正规方程（normal equations），OLS在计算工具匮乏的时代占据了主流。直到20世纪中叶线性规划算法的成熟——特别是单纯形法的出现——LAD的计算瓶颈才被突破，重新进入统计学主流视野。

数学形式

给定线性模型 $y_i=x_i'\beta+\epsilon_i$ （ $i=1,\ldots,n$ ），LAD估计量定义为以下优化问题的解：

\hat{\beta}_{\text{LAD}}=\arg\min_{\beta}\sum_{i=1}^{n}|y_i-x_i'\beta|=\arg\min_{\beta}\|y-X\beta\|_1

其中 $\|\cdot\|_1$ 为L1范数。这一目标函数是凸的但在每个 $y_i=x_i'\beta$ 处不可微，因此不存在封闭解。LAD的最优性条件由次梯度（subgradient）刻画：零向量属于目标函数在 $\hat{\beta}_{\text{LAD}}$ 处的次微分，即存在向量 $\mathbf{s}$ ，其分量 $s_i\in[-1,1]$ （当第 $i$ 个残差为零时）或 $s_i=\text{sgn}(y_i-x_i'\hat{\beta})$ （当残差非零时），使得 $X'\mathbf{s}=0$ 。这一条件等价于：对于任意 $p-1$ 维子空间，经过 $\hat{\beta}_{\text{LAD}}$ 的超平面两侧的绝对残差权重达到平衡。

线性规划转化

LAD问题可等价转化为线性规划。引入非负辅助变量 $u_i,v_i\ge0$ 表示正残差和负残差，使 $y_i-x_i'\beta=u_i-v_i$ 且 $|y_i-x_i'\beta|=u_i+v_i$ 。则LAD等价于：

\min_{\beta,u,v}\sum_{i=1}^{n}(u_i+v_i)\quad\text{s.t.}\quad y_i-x_i'\beta-u_i+v_i=0,\;u_i\ge0,\;v_i\ge0

这是一个标准线性规划问题，可用单纯形法或内点法高效求解。Wagner（1959）最早明确建立了LAD与线性规划的这一联系，为LAD的实用化铺平了道路。

与OLS的核心对比

LAD与OLS的本质差异体现在三个维度。其一，离群值敏感性：OLS中单个残差被平方放大（若残差为10则贡献为100），一个极端离群点便可大幅扭曲估计结果；LAD中该贡献仅为10，影响被线性化。统计学术语中，LAD的影响函数有界而OLS的影响函数无界——这使得LAD的崩溃点（breakdown point）显著高于OLS。其二，估计对象：OLS给出条件均值，LAD给出条件中位数。当误差分布对称时两者趋近一致；当误差非对称或有离群点时两者分道扬镳——中位数总是稳健的。其三，效率权衡：当误差精确服从正态分布时，OLS是有效估计量（达到Cramér-Rao下界），LAD效率约为OLS的 $2/\pi\approx63.7\%$ ；但当误差服从拉普拉斯分布（ $f(\epsilon)\propto e^{-|\epsilon|/\sigma}$ ）时，LAD反转为最大似然估计，效率超越OLS。

大样本性质

在适当正则条件下（误差具有唯一的中位数零且设计矩阵满秩），LAD估计量具有一致性和渐近正态性：

\sqrt{n}(\hat{\beta}_{\text{LAD}}-\beta_0)\xrightarrow{d}N\left(0,\frac{1}{4f(0)^2}\cdot\left(\lim_{n\to\infty}\frac{X'X}{n}\right)^{-1}\right)

其中 $f(0)$ 是误差分布在零点的概率密度函数值。这一结果揭示了一个关键事实：LAD的渐近效率取决于误差在零点的密度——密度越大（即误差更集中在零附近），LAD越精确。与OLS的渐近协方差 $\sigma^2(X'X)^{-1}$ 相比，两者的相对效率比为 $4f(0)^2\sigma^2$ 。实践中， $f(0)$ 需通过核密度估计或基于残差的自举法估计，这使LAD的协方差矩阵推断比OLS更复杂。

计算与现代实现

除线性规划外，现代计算常采用以下方法。Barrodale-Roberts算法（1973）是专为LAD定制的单纯形法变体，利用设计矩阵的结构大幅减少迭代次数。迭代加权最小二乘法（IRLS）将LAD表为加权OLS的极限：选取权重 $w_i^{(k)}=1/|r_i^{(k)}|$ ，迭代求解加权最小二乘直至收敛。该方法简单易编程，但残差接近零时权重会趋于无穷——实践中需加入小的正则化项 $\delta>0$ 使权重有界。此外，LAD是分位数回归在 $\tau=0.5$ （中位数分位数）处的特例，所有分位数回归的算法（如基于线性规划的内点法、MM算法）均可直接用于LAD。

推广与经济学应用

分位数回归（Koenker \& Bassett, 1978）将LAD从条件中位数推广至任意条件分位数 $\tau\in(0,1)$ ：最小化 $\sum\rho_\tau(y_i-x_i'\beta)$ ，其中 $\rho_\tau(u)=u(\tau-\mathbf{1}_{u<0})$ 为折弯损失函数（check function）。这使研究者得以刻画自变量对响应变量整个条件分布的影响，而非仅对中心趋势的影响。

在劳动经济学中，LAD和分位数回归被广泛用于工资方程的估计，以分析教育、经验等因素对不同工资分位数的异质性影响——例如，教育回报率在工资分布的低分位和高分位是否不同。在金融计量中，LAD用于估计CAPM的Beta系数，比OLS估计更不易受极端收益日的干扰。在政策评估中，LAD方法用于估计处理效应在不同分位数上的分布效应，弥补了仅关注平均处理效应的不足。

尽管LAD在稳健性上优于OLS，其局限亦需注意：当离群值出现在预测变量（杠杆点）而非响应变量中时，LAD的稳健性有限——此时需借助高崩溃点方法（如LMS、LTS）或MM估计；当误差分布确实接近正态时，OLS的效率优势不可忽视；多元LAD的最优解可能不唯一（目标函数在参数空间的分段线性区域上可能出现平坦区域），影响了估计的确定性。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。