ARTICLE

Lasso

Lasso(Least Absolute Shrinkage and Selection Operator,最小绝对收缩与选择算子)是统计学与机器学习中一种兼具正则化与变量选择功能的线性回归方法,由罗伯特·蒂布希拉尼(Robert Tibshirani)于1996年正式提出。该方法通过在最小二乘目标函数中引入参数的L1范数惩罚项,同时实现系数向零收缩与不重要

浏览 4 更新 2025-11-11

Lasso(Least Absolute Shrinkage and Selection Operator,最小绝对收缩与选择算子)是统计学与机器学习中一种兼具正则化与变量选择功能的线性回归方法,由罗伯特·蒂布希拉尼(Robert Tibshirani)于1996年正式提出。该方法通过在最小二乘目标函数中引入参数的L1范数惩罚项,同时实现系数向零收缩与不重要的变量被精确压缩为零两个目标,从而在模型估计的过程中自动完成变量筛选。Lasso的出现有效弥补了传统普通最小二乘法(OLS)在高维数据场景下的不足,成为高维统计推断与稀疏建模领域最具影响力的方法之一,在基因组学、信号处理、计量经济学、图像压缩等多个学科中获得了广泛应用。

数学表述

Lasso的估计量定义为如下约束优化问题的解。设有n n 个观测样本,每个样本包含p p 个预测变量xi=(xi1,xi2,,xip)T \mathbf{x}_i = (x_{i1}, x_{i2}, \ldots, x_{ip})^T 和一个响应变量yi y_i 。假设所有变量均已中心化(即均值为零),则Lasso的优化目标可写作:

β^Lasso=argminβ{12ni=1n(yij=1pxijβj)2+λj=1pβj}\hat{\boldsymbol{\beta}}^{\text{Lasso}} = \arg\min_{\boldsymbol{\beta}} \left\{ \frac{1}{2n} \sum_{i=1}^{n} \left( y_i - \sum_{j=1}^{p} x_{ij} \beta_j \right)^2 + \lambda \sum_{j=1}^{p} |\beta_j| \right\}

其中,λ0 \lambda \geq 0 是正则化参数(或称调优参数),控制惩罚项的强度。第一项为残差平方和的一半,衡量模型的拟合优度;第二项为L1惩罚项,对所有回归系数的绝对值求和。当λ=0 \lambda = 0 时,Lasso退化为普通最小二乘估计;随着λ \lambda 逐渐增大,越来越多的系数被精确压缩为零,最终获得一个稀疏的模型。这一稀疏性特征使得Lasso在变量个数远大于样本量(即pn p \gg n )的高维场景下依然能够给出可解释且预测性能良好的解。

与岭回归和弹性网的关系

Lasso属于线性回归中正则化方法的广义范畴,与其最密切相关的两种方法是岭回归(Ridge Regression)和弹性网(Elastic Net)。岭回归采用L2范数惩罚项λj=1pβj2 \lambda \sum_{j=1}^{p} \beta_j^2 ,能够将系数均匀地向零收缩,但不会将任何系数精确设为零,因此不具备变量选择功能。Lasso的L1惩罚则借助其几何特性——L1球的角点恰好位于坐标轴上——使得优化问题的解倾向于落在坐标轴的角点上,从而自然地产生稀疏解。弹性网由邹晖和特雷弗·哈斯蒂(Trevor Hastie)于2005年提出,综合了L1和L2两种惩罚,其优化目标为:

β^Elastic Net=argminβ{12ni=1n(yij=1pxijβj)2+λ1j=1pβj+λ2j=1pβj2}\hat{\boldsymbol{\beta}}^{\text{Elastic Net}} = \arg\min_{\boldsymbol{\beta}} \left\{ \frac{1}{2n} \sum_{i=1}^{n} \left( y_i - \sum_{j=1}^{p} x_{ij} \beta_j \right)^2 + \lambda_1 \sum_{j=1}^{p} |\beta_j| + \lambda_2 \sum_{j=1}^{p} \beta_j^2 \right\}

弹性网在保留Lasso变量选择能力的同时,通过L2惩罚项更加有效地处理高度相关变量组(即群组效应),在高维数据中往往比单独使用Lasso获得更稳定的预测表现。

正则化参数的选择

正则化参数λ \lambda 的选择是Lasso在实际应用中的关键步骤。λ \lambda 过小会导致模型过于复杂,发生过拟合;λ \lambda 过大则会使所有系数被迫为零,模型失去预测能力。最常用的选择方法是K K 折交叉验证(K-fold Cross-Validation)。具体做法是将数据随机分为K K 等份(通常取K=5 K = 5 K=10 K = 10 ),依次将其中一份作为验证集,其余K1 K-1 份作为训练集,对一系列候选λ \lambda 值分别拟合模型并计算验证集上的预测误差。最终选择使交叉验证误差最小的λ \lambda 值,或遵循"一倍标准误规则"(One Standard Error Rule)选取在最小误差一个标准误范围内的最简模型。蒂布希拉尼等人的数值模拟研究表明,交叉验证方法在实际应用中表现稳健,能够有效平衡模型的拟合度与稀疏性。

计算算法

Lasso的求解过程因其目标函数的非光滑性(绝对值项在零点不可导)而无法使用标准梯度下降法直接求解。早期研究主要采用二次规划方法,但计算效率较低。2002年,布拉德利·埃夫隆(Bradley Efron)等人提出的最小角回归(Least Angle Regression, LARS)算法使Lasso的计算效率获得了革命性提升。LARS算法的核心思想是沿着等角方向逐步引入预测变量,每一步在保证当前残差与已选变量之间的相关性相等的前提下,更新系数路径直至满足Lasso的解特征。该算法能够以与OLS相近的计算成本完整地求出Lasso在整个正则化路径上的所有解,是Lasso得以在高维数据中广泛应用的关键技术支撑。近年来,随着数据规模的进一步增长,坐标下降法(Coordinate Descent)因其简洁性和可并行性而成为更大规模Lasso问题的首选求解策略。坐标下降法通过逐一更新每个坐标(变量)上的系数值,反复迭代直至收敛,在稀疏高维场景下展现出惊人的效率。

统计性质与渐近理论

从统计推断的角度看,Lasso的估计量在特定条件下具有良好的理论性质。在稀疏性假设(即真实模型中仅有少数变量非零)下,当样本量n n 与变量维数p p 均趋于无穷且满足一定的相容性条件(Compatibility Condition)或受限特征值条件(Restricted Eigenvalue Condition)时,Lasso估计量具有预测一致性,其预测误差依概率收敛于零。更为重要的是,在系数的最小非零信号强度足够大且满足Irrepresentable Condition的假设下,Lasso能够以趋近于1的概率正确识别真实模型中所有非零变量,这一性质被称为变量选择一致性。然而,Lasso的渐近分布并非标准正态分布,这给后续的假设检验和置信区间构造带来了挑战。针对这一问题,后续研究发展出了去偏Lasso(Debiased Lasso)和选择后推断(Post-Selection Inference)等理论框架,为基于Lasso的高维统计推断提供了有效的矫正方法。

应用领域

Lasso方法自提出以来已在广泛的学科领域中得到深入应用。在生物信息学和基因组学中,基因表达数据的典型特征是样本量小(通常数十至数百)而变量数极多(可达数万个基因位点),Lasso能够从海量基因中筛选出少数与疾病表型或药物反应相关的关键基因,为精准医学提供数据支撑。在信号处理中,压缩感知(Compressed Sensing)理论的核心思想与Lasso的稀疏性理念高度一致,Lasso被广泛应用于从少量线性测量值中重构稀疏信号,如磁共振成像(MRI)的加速采集和图像去噪。在计量经济学中,Lasso被用于处理多重共线性严重或变量数目接近样本量的回归问题,同时也作为高维工具变量选择的前置筛选工具。在自然语言处理和计算机视觉中,Lasso及其变体被用于文本分类、特征选择、图像标注等任务,显著提升了模型在高维稀疏特征空间中的泛化能力。

局限性与扩展方向

尽管Lasso具有诸多优点,但在实际应用中仍面临若干局限性。第一,当预测变量之间存在较强的相关性时,Lasso倾向于从中任选一个而忽略其他同等重要的变量,导致模型的可解释性和稳定性下降。第二,在pn p \gg n 的场景下,Lasso最多只能选出n n 个非零变量,这一饱和上限限制了模型在超高维数据中的表达能力。第三,当真实信号非常微弱或被噪声掩盖时,Lasso的变量选择一致性依赖于苛刻的Irrepresentable Condition,而该条件在实际数据中往往难以满足。为克服上述局限,研究者们提出了众多扩展形式,包括自适应Lasso(Adaptive Lasso,对不同系数施加不同权重的惩罚)、融合Lasso(Fused Lasso,在惩罚项中融入相邻系数的差分绝对值)、分组Lasso(Group Lasso,以组为单位进行变量筛选)以及非凸惩罚方法(如SCAD和MCP),这些方法在不同场景下均表现出了优于标准Lasso的性能。