ARTICLE

Lasso回归

Lasso回归 (Lasso Regression) Lasso回归(Least Absolute Shrinkage and Selection Operator,最小绝对收缩和选择算子)是由Robert Tibshirani于1996年提出的一种线性回归方法的扩展,其核心在于通过引入L_1正则化项实现变量选择与参数估计的同时进行。Lasso回归在保持预测

浏览 5 更新 2025-11-08

Lasso回归 (Lasso Regression)

Lasso回归(Least Absolute Shrinkage and Selection Operator,最小绝对收缩和选择算子)是由Robert Tibshirani于1996年提出的一种线性回归方法的扩展,其核心在于通过引入L1L_1正则化项实现变量选择参数估计的同时进行。Lasso回归在保持预测精度的同时能将某些回归系数精确压缩至零,从而得到具有稀疏性的模型——这一特性使其在高维数据分析、特征选择和模型可解释性构建中具有重要价值。

数学形式与核心优势

Lasso回归求解以下凸优化问题获得β^lasso\hat{\beta}^{\text{lasso}}

β^lasso=argminβ{12ni=1n(yiβ0j=1pxijβj)2+λj=1pβj}\hat{\beta}^{\text{lasso}} = \arg\min_{\beta} \left\{ \frac{1}{2n}\sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p |\beta_j| \right\}

其中第一项为残差平方和(RSS),λ0\lambda \geq 0为调节参数控制惩罚强度,βj\sum |\beta_j|L1L_1惩罚项即系数向量的L1L_1范数。等价表示为约束形式:RSS最小化受βjt\sum |\beta_j| \leq t约束。

与相关方法对比体现Lasso核心优势。OLS在p>np > n或存在多重共线性时方差急剧增大导致过拟合岭回归(Ridge Regression)引入L2L_2正则化通过收缩系数降低方差,但不能进行变量选择——所有系数被压缩但永不精确等于零。Lasso的L1L_1惩罚项在零处不可微的特点使其兼具压缩估计与变量选择双重功能——当λ\lambda足够大时部分系数被精确压缩至零,产生稀疏模型。

几何解释、求解与调参

二维情形下的几何解释直观展示了L1L_1范数的稀疏性来源。RSS等高线与约束区域相切时:岭回归的圆形约束(L2L_2球)切点通常位于象限内部产生非零系数;Lasso的菱形约束(L1L_1球)由于顶点位于坐标轴上,切点有更高概率落在顶点处导致某些系数为零——这就是Lasso能自动进行变量选择的几何本质。

求解算法方面,因L1L_1惩罚项不可微,OLS的解析解不适用,需采用数值方法。最常用的是最小角回归(LARS)算法和坐标下降法。LARS算法通过连续的逐步回归方向高效计算所有λ\lambda值下的整个解路径(solution path),其计算效率与单次OLS回归相当。坐标下降法在固定其他系数的条件下对每个βj\beta_j逐一最小化目标函数,在高维问题中尤其高效。

调节参数λ\lambda的选择是Lasso实践的关键。常用的交叉验证(Cross-Validation)通过最小化预测误差选择最优λ\lambda——典型做法为K折交叉验证选取使验证误差最小的λmin\lambda_{min}或遵循"一倍标准误规则"(one-standard-error rule)选取更简约的模型。贝叶斯信息准则(BIC)等信息准则也可用于调参。Lasso回归凭借其简洁性与实用性,现已成为高维统计学习、基因组学和经济学特征选择领域的基础工具——后续发展包括弹性网络(Elastic Net)结合L1L_1L2L_2惩罚、自适应Lasso(Adaptive Lasso)等改进方法。