ARTICLE

Lasso回归 (Lasso Regression)

Lasso回归 (Lasso Regression) Lasso回归,全称Least Absolute Shrinkage and Selection Operator(最小绝对收缩与选择算子),由Robert Tibshirani于1996年在论文《Regression Shrinkage and Selection via the Lasso》中正式提出

浏览 0 更新 2026-07-15

Lasso回归 (Lasso Regression)

Lasso回归,全称Least Absolute Shrinkage and Selection Operator(最小绝对收缩与选择算子),由Robert Tibshirani于1996年在论文《Regression Shrinkage and Selection via the Lasso》中正式提出,是线性回归在高维稀疏设定下的里程碑式扩展。其核心思想是在普通最小二乘(OLS)的损失函数上添加系数绝对值和(即L1L_1范数)作为惩罚项,从而在估计回归系数的同时自动执行变量选择——这是传统岭回归(Ridge)所不具备的能力。因其兼具预测精度与模型可解释性,Lasso已被广泛运用于计量经济学基因组学金融工程机器学习等领域。

数学形式与基本性质

给定标准化后的设计矩阵XRn×p\mathbf{X} \in \mathbb{R}^{n \times p}和中心化响应向量yRn\mathbf{y} \in \mathbb{R}^n,Lasso估计量定义为以下凸优化问题的解:

β^Lasso=argminβRp{12nyXβ22+λβ1}\hat{\boldsymbol{\beta}}^{\text{Lasso}} = \arg\min_{\boldsymbol{\beta} \in \mathbb{R}^p} \left\{ \frac{1}{2n} \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|_2^2 + \lambda \|\boldsymbol{\beta}\|_1 \right\}

其中β1=j=1pβj\|\boldsymbol{\beta}\|_1 = \sum_{j=1}^p |\beta_j|L1L_1范数,λ0\lambda \geq 0为正则化参数。等价约束形式为:

minβ12nyXβ22s.t.j=1pβjt\min_{\boldsymbol{\beta}} \frac{1}{2n} \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|_2^2 \quad \text{s.t.} \quad \sum_{j=1}^p |\beta_j| \leq t

参数ttλ\lambda呈反向单调关系。目标函数为凸函数(两项均为凸),故存在唯一全局最优解,尽管当p>np > n时OLS解不唯一,Lasso通过正则化确保了解的存在性与唯一性。

与岭回归的根本区别在于惩罚范数的选择:岭回归使用λβ22\lambda\|\boldsymbol{\beta}\|_2^2,对较大系数施加更严厉的平方惩罚,所有系数被均匀收缩但永不为零;Lasso使用λβ1\lambda\|\boldsymbol{\beta}\|_1,对系数施加线性惩罚,使部分系数被精确压缩至零。这一差异源于L1L_1范数在原点处的不可微性——次梯度条件允许最优解落在坐标轴上。

几何直觉与软阈值

在二维参数空间中,OLS目标函数的等值线为以β^OLS\hat{\boldsymbol{\beta}}^{\text{OLS}}为中心的椭圆族,而约束区域分别为:岭回归对应圆盘β12+β22t\beta_1^2 + \beta_2^2 \leq t,Lasso对应菱形β1+β2t|\beta_1| + |\beta_2| \leq t。由于菱形顶点位于坐标轴上,等值线更可能首先触及顶点,此时一个系数恰好被设为零。维度pp越高,L1L_1球的面(顶点在坐标轴上的结构)占比越大,稀疏解出现的概率越高。

正交设计XTX=I\mathbf{X}^T\mathbf{X} = \mathbf{I})这一特殊情形下,Lasso具有显式解:每个系数通过软阈值算子(Soft-Thresholding Operator)独立收缩:

β^jLasso=Sλ(β^jOLS)=sign(β^jOLS)max(β^jOLSλ,0)\hat{\beta}_j^{\text{Lasso}} = S_{\lambda}(\hat{\beta}_j^{\text{OLS}}) = \operatorname{sign}(\hat{\beta}_j^{\text{OLS}}) \cdot \max(|\hat{\beta}_j^{\text{OLS}}| - \lambda, 0)

该算子清晰展示了Lasso的双重行为:当OLS估计量的绝对值低于阈值λ\lambda时,系数被直接裁剪为零(变量剔除);当高于阈值时,系数向零方向收缩λ\lambda单位(压缩估计)。与之对比,岭回归的收缩因子为1/(1+λ)1/(1+\lambda),系数被等比压缩但永不归零。

求解算法

Lasso的求解面临L1L_1范数不可微的技术挑战,传统梯度下降不直接适用。目前主流算法包括三类:

坐标下降法(Coordinate Descent):沿每个坐标方向逐一优化,固定其余系数时单变量优化问题有闭式软阈值解。glmnet包采用此算法,因其每次更新仅涉及与当前残差的点积运算,对大规模稀疏数据极为高效。

LARS算法(Least Angle Regression):由Efron等人于2004年提出,通过沿"等角方向"逐步添加变量,一次性生成所有λ\lambda值下的完整解路径(Solution Path)——即系数随λ\lambda变化的整条轨迹。其计算成本与单次OLS同阶,且与Lasso的解路径高度吻合(在某些条件下等价)。

近端梯度法(Proximal Gradient Method):将目标函数分解为可微的损失项与不可微的惩罚项,迭代执行梯度步和近端算子(即软阈值),通用于广义Lasso问题。

正则化参数的选择

λ\lambda的选取权衡偏差与方差,是Lasso实践中的核心决策。三条路径最为通行:

K折交叉验证:在预设的λ\lambda网格上做K折CV,取最小化交叉验证误差的λ^min\hat{\lambda}_{\text{min}}。为获得更稀疏模型,常采用"一倍标准误规则"——选择误差不超出最小值一倍标准误的最大λ\lambda

信息准则:以BIC=nlog(RSS/n)+klogn\text{BIC} = n\log(\text{RSS}/n) + k\log n或AIC进行选择,其中自由度kk近似为非零系数的个数β^0\|\hat{\boldsymbol{\beta}}\|_0。在高维情形下,扩展BIC(EBIC)有更好表现。

理论准则:若目标为变量选择一致性,理论最优速率为λlogpn\lambda \asymp \sqrt{\frac{\log p}{n}},该速率在诸多Oracle不等式中得到印证。

理论性质与扩展

在高维稀疏设定(pnp \gg n,仅部分协变量与响应相关)下,Lasso的理论性质已有深入研究。Bickel、Ritov和Tsybakov(2009)在限制特征值条件下证明了Lasso的预测误差以slogpn\frac{s \log p}{n}ss为真实非零系数个数)的速率收敛;Zhao与Yu(2006)提出了不可表示条件以保证Lasso的变量选择一致性。然而标准Lasso不具备Oracle性质——即无法同时达到变量选择一致性且保持非零系数的渐近有效性。

为此,Zou(2006)提出自适应Lasso(Adaptive Lasso),以λwjβj\lambda \sum w_j|\beta_j|代替均匀惩罚,其中权重wj=1/β^jinitγw_j = 1/|\hat{\beta}_j^{\text{init}}|^\gamma由初始估计(如OLS或Ridge)构造,赋予强信号变量更轻惩罚。自适应Lasso满足Oracle性质,是非凸SCAD惩罚的凸替代方案。

弹性网(Elastic Net):由Zou与Hastie(2005)提出,惩罚项为λ[αβ1+(1α)β22]\lambda [\alpha\|\boldsymbol{\beta}\|_1 + (1-\alpha)\|\boldsymbol{\beta}\|_2^2],兼具Lasso的变量选择能力和Ridge对高度共线性变量的分组效应,适合共线性严重或变量成组出现的场景。

Group Lasso:当变量具有天然分组结构(如多水平因子变量)时,对每组变量的L2L_2范数而非单变量施加L1L_1惩罚,实现"组水平"的选择。

经济学与金融应用

实证经济学中,Lasso广泛用于高维控制变量选择——当研究者面临大量潜在混杂因素但缺乏逐一纳入的理论指导时,Lasso可数据驱动地筛选控制变量。Belloni、Chen、Chernozhukov和Hansen(2012)的"双Lasso"(Double Lasso)方法进一步推广至因果推断中的处理效应估计,在Neyman正交矩条件下实现有效的后选择推断。

金融学中,Lasso常用于股票收益率的因子选择——从数百个潜在因子中识别真正有预测力的少数变量;在宏观经济预测中,Lasso在高维时序列数据(如FRED-MD数据库的128个宏观变量)上展现优越的预测性能。作为统计学习与计量经济学交叉的典范方法,Lasso从根本上改变了高维数据分析的范式——它表明在稀疏假设下,即使变量数远超样本量,稳定的估计与有效的推断仍是可能的。