ARTICLE
Lasso回归 (Lasso Regression)
Lasso回归 (Lasso Regression) Lasso回归,全称Least Absolute Shrinkage and Selection Operator(最小绝对收缩与选择算子),由Robert Tibshirani于1996年在论文《Regression Shrinkage and Selection via the Lasso》中正式提出
Lasso回归 (Lasso Regression)
Lasso回归,全称Least Absolute Shrinkage and Selection Operator(最小绝对收缩与选择算子),由Robert Tibshirani于1996年在论文《Regression Shrinkage and Selection via the Lasso》中正式提出,是线性回归在高维稀疏设定下的里程碑式扩展。其核心思想是在普通最小二乘(OLS)的损失函数上添加系数绝对值和(即范数)作为惩罚项,从而在估计回归系数的同时自动执行变量选择——这是传统岭回归(Ridge)所不具备的能力。因其兼具预测精度与模型可解释性,Lasso已被广泛运用于计量经济学、基因组学、金融工程和机器学习等领域。
数学形式与基本性质
给定标准化后的设计矩阵和中心化响应向量,Lasso估计量定义为以下凸优化问题的解:
其中为范数,为正则化参数。等价约束形式为:
参数与呈反向单调关系。目标函数为凸函数(两项均为凸),故存在唯一全局最优解,尽管当时OLS解不唯一,Lasso通过正则化确保了解的存在性与唯一性。
与岭回归的根本区别在于惩罚范数的选择:岭回归使用,对较大系数施加更严厉的平方惩罚,所有系数被均匀收缩但永不为零;Lasso使用,对系数施加线性惩罚,使部分系数被精确压缩至零。这一差异源于范数在原点处的不可微性——次梯度条件允许最优解落在坐标轴上。
几何直觉与软阈值
在二维参数空间中,OLS目标函数的等值线为以为中心的椭圆族,而约束区域分别为:岭回归对应圆盘,Lasso对应菱形。由于菱形顶点位于坐标轴上,等值线更可能首先触及顶点,此时一个系数恰好被设为零。维度越高,球的面(顶点在坐标轴上的结构)占比越大,稀疏解出现的概率越高。
在正交设计()这一特殊情形下,Lasso具有显式解:每个系数通过软阈值算子(Soft-Thresholding Operator)独立收缩:
该算子清晰展示了Lasso的双重行为:当OLS估计量的绝对值低于阈值时,系数被直接裁剪为零(变量剔除);当高于阈值时,系数向零方向收缩单位(压缩估计)。与之对比,岭回归的收缩因子为,系数被等比压缩但永不归零。
求解算法
Lasso的求解面临范数不可微的技术挑战,传统梯度下降不直接适用。目前主流算法包括三类:
坐标下降法(Coordinate Descent):沿每个坐标方向逐一优化,固定其余系数时单变量优化问题有闭式软阈值解。glmnet包采用此算法,因其每次更新仅涉及与当前残差的点积运算,对大规模稀疏数据极为高效。
LARS算法(Least Angle Regression):由Efron等人于2004年提出,通过沿"等角方向"逐步添加变量,一次性生成所有值下的完整解路径(Solution Path)——即系数随变化的整条轨迹。其计算成本与单次OLS同阶,且与Lasso的解路径高度吻合(在某些条件下等价)。
近端梯度法(Proximal Gradient Method):将目标函数分解为可微的损失项与不可微的惩罚项,迭代执行梯度步和近端算子(即软阈值),通用于广义Lasso问题。
正则化参数的选择
的选取权衡偏差与方差,是Lasso实践中的核心决策。三条路径最为通行:
K折交叉验证:在预设的网格上做K折CV,取最小化交叉验证误差的。为获得更稀疏模型,常采用"一倍标准误规则"——选择误差不超出最小值一倍标准误的最大。
信息准则:以或AIC进行选择,其中自由度近似为非零系数的个数。在高维情形下,扩展BIC(EBIC)有更好表现。
理论准则:若目标为变量选择一致性,理论最优速率为,该速率在诸多Oracle不等式中得到印证。
理论性质与扩展
在高维稀疏设定(,仅部分协变量与响应相关)下,Lasso的理论性质已有深入研究。Bickel、Ritov和Tsybakov(2009)在限制特征值条件下证明了Lasso的预测误差以(为真实非零系数个数)的速率收敛;Zhao与Yu(2006)提出了不可表示条件以保证Lasso的变量选择一致性。然而标准Lasso不具备Oracle性质——即无法同时达到变量选择一致性且保持非零系数的渐近有效性。
为此,Zou(2006)提出自适应Lasso(Adaptive Lasso),以代替均匀惩罚,其中权重由初始估计(如OLS或Ridge)构造,赋予强信号变量更轻惩罚。自适应Lasso满足Oracle性质,是非凸SCAD惩罚的凸替代方案。
弹性网(Elastic Net):由Zou与Hastie(2005)提出,惩罚项为,兼具Lasso的变量选择能力和Ridge对高度共线性变量的分组效应,适合共线性严重或变量成组出现的场景。
Group Lasso:当变量具有天然分组结构(如多水平因子变量)时,对每组变量的范数而非单变量施加惩罚,实现"组水平"的选择。
经济学与金融应用
在实证经济学中,Lasso广泛用于高维控制变量选择——当研究者面临大量潜在混杂因素但缺乏逐一纳入的理论指导时,Lasso可数据驱动地筛选控制变量。Belloni、Chen、Chernozhukov和Hansen(2012)的"双Lasso"(Double Lasso)方法进一步推广至因果推断中的处理效应估计,在Neyman正交矩条件下实现有效的后选择推断。
在金融学中,Lasso常用于股票收益率的因子选择——从数百个潜在因子中识别真正有预测力的少数变量;在宏观经济预测中,Lasso在高维时序列数据(如FRED-MD数据库的128个宏观变量)上展现优越的预测性能。作为统计学习与计量经济学交叉的典范方法,Lasso从根本上改变了高维数据分析的范式——它表明在稀疏假设下,即使变量数远超样本量,稳定的估计与有效的推断仍是可能的。