ARTICLE

Lasso 回归

Lasso 回归(Least Absolute Shrinkage and Selection Operator)由统计学家 Robert Tibshirani 于 1996 年提出,是一种在回归分析中同时完成变量选择和参数正则化的高效方法。其核心思想是在普通最小二乘估计的损失函数中加入一个关于回归系数绝对值的惩罚项,迫使部分系数收缩至零,从而实现模型稀疏化

浏览 0 更新 2025-10-26

Lasso 回归(Least Absolute Shrinkage and Selection Operator)由统计学家 Robert Tibshirani 于 1996 年提出,是一种在回归分析中同时完成变量选择和参数正则化的高效方法。其核心思想是在普通最小二乘估计的损失函数中加入一个关于回归系数绝对值的惩罚项,迫使部分系数收缩至零,从而实现模型稀疏化和特征选择的双重目标。Lasso 的名称本身就概括了它的两大特性:"最小绝对值"对应 L1 惩罚,"收缩与选择算子"则指向其筛选变量的机制。自提出以来,Lasso 回归已成为高维统计分析和机器学习领域中最具影响力的方法之一。 数学形式与几何直观

Lasso 回归的估计目标可以表达为如下带惩罚的优化问题:

β^=argminβ{12ni=1n(yiβ0j=1pxijβj)2+λj=1pβj}\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \left\{ \frac{1}{2n} \sum_{i=1}^n \left(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j\right)^2 + \lambda \sum_{j=1}^p |\beta_j| \right\}

其中第一项是残差平方和,衡量模型对观测数据的拟合优度;第二项是 L1 范数惩罚项,参数 λ 是非负调节参数,控制惩罚的力度。当 λ = 0 时,Lasso 退化为普通最小二乘估计,不具有任何收缩效果;当 λ 逐渐增大时,越来越多的系数被压缩至零;当 λ 超过某个阈值时,所有系数均变为零。L1 惩罚之所以能产生稀疏解,根本原因在于其约束区域是菱形(二维情形)或更广义的 L1 球体。在二维情形中,菱形约束区域的顶点恰好落在坐标轴上,当最小二乘的椭圆等值线与菱形相交时,交点更容易出现在顶点处,而顶点上总有一个系数为零。相比之下,L2 惩罚对应的圆形约束区域表面光滑,交点极少落在坐标轴上,因此岭回归虽然能收缩系数但无法将其精确归零。 变量选择与正则化的双重功能

Lasso 回归最突出的优势在于它将变量选择与参数估计融合在同一优化框架中。传统的变量选择方法如逐步回归或最优子集选择,通常以离散的方式决定变量的去留,这些方法存在计算复杂度过高(子集选择为 NP 难问题)或稳定性差(逐步回归的路径依赖性强)等缺陷。Lasso 通过连续的 L1 惩罚机制实现变量筛选,既降低了模型的复杂度,又有效控制了过拟合。在经济学、生物统计学和计算社会科学等领域,高维数据的出现日益频繁——当预测变量数目 p 远大于样本量 n 时,经典线性回归无法得到唯一的最小二乘解,而 Lasso 通过正则化确保了问题的适定性,并自动识别出对响应变量最具解释力的少数预测因子。这一特性使得 Lasso 特别适用于基因表达数据分析、文本情感分类和宏观经济预测等"大 p 小 n"场景。 求解算法与计算路径

Lasso 的系数估计通常无法以闭式表达(除预测变量正交这种特殊情形外),因此需要依赖数值优化算法。目前最常用的求解方法是坐标下降法(Coordinate Descent),其核心策略是每次只更新一个回归系数而固定其余系数,依次循环直至收敛。对于 Lasso 问题,每个单变量更新可以简化为软阈值(Soft-thresholding)算子的形式:

βjS(1ni=1nxijri(j)+βj,  λ)\beta_j \leftarrow S\left(\frac{1}{n}\sum_{i=1}^n x_{ij} r_i^{(j)} + \beta_j,\; \lambda\right)

其中 S(z,γ)=sign(z)(zγ)+S(z, \gamma) = \text{sign}(z)(|z| - \gamma)_+ 即软阈值函数。最小角回归算法(LARS)是另一种高效的计算途径,它能够以近似最小二乘的计算量输出 Lasso 在全部 λ 取值上的完整解路径。坐标下降法与热启动(Warm Start)技术相结合(即用上一个 λ 的解作为下一个 λ 的起始点),可以在极短时间内计算出整条正则化路径,使得 Lasso 在大规模数据中的应用成为可能。 调节参数的选择策略

惩罚强度 λ 的选取是 Lasso 实际应用中的关键环节。最常用的方法是 K 折交叉验证:将数据随机分为 K 份,轮流以 K-1 份训练、1 份验证,在一系列候选 λ 上计算平均验证误差。通常有两种选取标准:其一是 λ\_min,即使验证误差最小的 λ 值;其二是 λ\_1se,即验证误差在 λ\_min 的一个标准误范围内且模型最为简洁的 λ 值。λ\_1se 准则倾向于产生更稀疏的模型,在实际应用中更受青睐。此外,信息准则如 BIC 和 AIC 也可用于 λ 的选择,BIC 在样本量较大时能一致地识别真实模型。 自适应 Lasso 与弹性网等变体

经典 Lasso 的变量选择结果在某些条件下可能不一致,即无法以概率趋于 1 地识别出真实变量集合。Zou(2006)提出的自适应 Lasso(Adaptive Lasso)通过为不同系数分配差异化的惩罚权重解决了这一问题。具体而言,先用岭回归或 Lasso 得到初始估计,然后利用初始估计的倒数构造加权 L1 惩罚,使得重要变量受到较小的惩罚、不重要变量受到较大的惩罚。自适应 Lasso 在满足一定正则条件下具有 Oracle 性质——即它的表现渐近等价于事先知道真实模型时的最优估计。另一个重要的变体是弹性网(Elastic Net),它在 L1 惩罚项之外加入 L2 惩罚项,同时继承了 Lasso 的稀疏能力和岭回归的群组效应(Grouping Effect)。当预测变量间存在高度相关性时,弹性网倾向于同时选入或同时排除一组相关变量,克服了 Lasso 仅从中随机挑选一个的缺陷。 应用场景与局限性

Lasso 回归的应用几乎遍及所有需要从高维数据中提取有效信息的领域。在基因组学中,研究人员利用 Lasso 从数万个基因表达水平中筛选与特定疾病相关的少数基因标记;在金融风险管理中,Lasso 被用于从大量宏观经济指标中识别系统性风险的关键驱动因素;在自然语言处理领域,Lasso 可用于文本分类中的特征选择。然而,该方法并非万能。其局限性包括:当变量高度相关时 Lasso 的变量选择结果不够稳定;在 p > n 的情形下 Lasso 最多只能选出 n 个非零系数;Lasso 对惩罚参数 λ 较为敏感,不同 λ 可能导出差异显著的模型。针对这些不足,研究者提出了组 Lasso(Group Lasso)、融合 Lasso(Fused Lasso)和稀疏组 Lasso(Sparse Group Lasso)等扩展方法,进一步丰富了正则化回归的工具箱。 总结

Lasso 回归通过引入 L1 正则化,创造性地将变量选择与连续收缩估计统一在一个简洁的优化框架中,为高维统计建模提供了突破性的解决方案。它不仅在理论上开辟了高维稀疏估计的研究方向,更在实践中经受了广泛验证,成为统计学习和数据科学领域不可或缺的基础工具。从自适应 Lasso 到弹性网,围绕 Lasso 不断涌现的变体和扩展也充分说明了这一思想的深远影响力。