ARTICLE

LASSO 回归

LASSO回归(Least Absolute Shrinkage and Selection Operator,最小绝对收缩与选择算子)是由罗伯特·蒂布希拉尼(Robert Tibshirani)于1996年提出的一种同时进行变量选择和正则化回归的统计方法。其核心思想是在普通最小二乘法的目标函数中引入一个基于回归系数绝对值之和的惩罚项(L1范数惩罚),迫使部

浏览 0 更新 2025-11-11

LASSO回归(Least Absolute Shrinkage and Selection Operator,最小绝对收缩与选择算子)是由罗伯特·蒂布希拉尼(Robert Tibshirani)于1996年提出的一种同时进行变量选择和正则化回归的统计方法。其核心思想是在普通最小二乘法的目标函数中引入一个基于回归系数绝对值之和的惩罚项(L1范数惩罚),迫使部分不重要的系数被精确压缩为零,从而实现自动的特征筛选和模型简化。LASSO回归在高维数据分析(即变量数远大于样本数的情形)、大规模机器学习建模以及需要高度可解释性的应用场景中表现尤为突出,已成为现代统计学和机器学习领域最具影响力的方法之一。

数学模型与优化目标

LASSO回归的估计量定义为如下优化问题的解:

β^LASSO=argminβ{12ni=1n(yiβ0j=1pxijβj)2+λj=1pβj}\hat{\beta}_{\text{LASSO}} = \arg\min_{\beta} \left\{ \frac{1}{2n} \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p |\beta_j| \right\}

其中,yi y_i 为第i i 个观测的响应变量,xij x_{ij} 为第i i 个观测的第j j 个预测变量,βj \beta_j 为回归系数,n n 为样本量,p p 为预测变量个数,λ0 \lambda \geq 0 为调节惩罚力度的超参数。等式左边的第一项是残差平方和(衡量模型的拟合优度),第二项是L1范数惩罚(衡量模型的复杂度)。当λ=0 \lambda = 0 时,LASSO退化为普通最小二乘估计;当λ \lambda 逐渐增大时,惩罚力度加强,越来越多的系数被压缩至零。这一特性使得LASSO不仅能够提升模型的预测精度(通过偏差-方差权衡),还能实现真正意义上的变量选择。

L1惩罚的几何解释与稀疏性

LASSO的稀疏性源于L1惩罚的几何特征。在参数空间Rp \mathbb{R}^p 中,LASSO的约束区域是一个以原点为中心的菱形(p=2 p=2 时)或超多面体(p>2 p>2 时),其顶点位于坐标轴上。与此形成鲜明对比的是,岭回归(Ridge Regression)的L2惩罚对应的约束区域是一个圆形(p=2 p=2 时)或超球面。残差平方和的等值线(椭圆)与菱形约束区域的交点更有可能落在坐标轴上,这意味着该交点上至少有一个系数为精确零。圆形约束的边界光滑且向外凸,交点落在坐标轴上的概率几乎为零,因此岭回归只能将系数压缩至接近零而无法实现精确的稀疏化。这种几何上的差异使得LASSO具备了"自动变量选择"这一独特优势。

调参方法与求解算法

LASSO回归的性能高度依赖于惩罚参数λ \lambda 的选择。最常用的调参方法是交叉验证(Cross-Validation):将数据划分为训练集和验证集,在训练集上拟合一系列λ \lambda 值对应的LASSO模型,然后选择在验证集上预测误差最小的λ \lambda 。K折交叉验证(通常取K=5或10)能够在偏差与方差之间取得良好的平衡。在求解算法方面,坐标下降法(Coordinate Descent)是当前最主流的LASSO求解技术。该算法每次只优化一个系数而固定其他系数,利用软阈值(Soft Thresholding)算子给出各系数的闭式更新规则,再依次遍历所有系数直至收敛。坐标下降法的计算复杂度为O(np) O(np) ,在处理包含数百万特征的高维数据时仍能保持极高的效率。此外,最小角回归(Least Angle Regression, LARS)算法在pn p \leq n 的情况下能够高效地计算LASSO的完整解路径(整条系数随λ \lambda 变化的轨迹),其计算量与普通最小二乘法相当。

与岭回归和弹性网的关系

LASSO与岭回归构成了正则化线性回归的两极。令q q 表示惩罚项βq |\beta|^q 的指数,L2惩罚(q=2 q=2 ,即岭回归)倾向于将所有系数均匀地压缩,适合变量间高度相关且不希望丢弃任何变量的场景;L1惩罚(q=1 q=1 ,即LASSO)则产生稀疏解,适合以变量选择为主要目标的场景。当预测变量之间存在强多重共线性时,LASSO倾向于从高度相关的变量组中随机选择其中一个,这一特性变量的选择稳定性欠佳。为了解决这一局限,邹晖和哈斯蒂(Zou \& Hastie, 2005)提出了弹性网(Elastic Net),将L1和L2惩罚线性组合为λ1βj+λ2βj2 \lambda_1 \sum |\beta_j| + \lambda_2 \sum \beta_j^2 。弹性网既保留了LASSO的稀疏性,又能像岭回归一样对相关变量的系数进行群体性压缩(grouping effect),在高维相关数据的预测建模中往往优于纯LASSO。

自适应LASSO与Oracle性质

标准LASSO虽然能够实现变量选择,但其估计量在一致性方面存在局限。邹晖(Zou, 2006)提出的自适应LASSO(Adaptive LASSO)通过对不同系数施加不同的惩罚权重来克服这一缺陷:

β^AdaLASSO=argminβ{(yiβ0xijβj)2+λwjβj}\hat{\beta}_{\text{AdaLASSO}} = \arg\min_{\beta} \left\{ \sum (y_i - \beta_0 - \sum x_{ij}\beta_j)^2 + \lambda \sum w_j |\beta_j| \right\}

其中权重wj=1/β^jinitγ w_j = 1/|\hat{\beta}_j^{\text{init}}|^\gamma β^jinit \hat{\beta}_j^{\text{init}} 为某个初始一致估计(如普通最小二乘估计),γ>0 \gamma > 0 为调节参数。自适应LASSO的一个关键理论优势在于其具有Oracle性质——当样本量趋于无穷时,该估计量既能以概率1正确识别真实模型中非零系数的集合(变量选择一致性),又能使非零系数的渐近分布达到理想的效率(即知道真实模型的前提下所能达到的最佳估计精度)。

应用领域与实践注意

LASSO回归已广泛应用于基因组学(从数万基因表达谱中筛选与疾病相关的标志物)、经济学(识别影响经济增长的关键变量)、信号处理(压缩感知中的信号恢复)、自然语言处理(文本特征选择)以及金融风险管理(违约预测因子的筛选)等诸多领域。在实际使用中,需要注意以下几点:首先,LASSO要求预测变量经过标准化处理,以确保惩罚的公平性;其次,当pn p \gg n 时,LASSO最多能选择出n n 个非零变量,这是一个重要的容量约束;第三,LASSO的变量选择结果在不同样本上的稳定性有限,可结合自助法(Bootstrap)进行变量稳定性的评估;最后,若预测目标为预测精度而非变量解释,弹性网或随机森林等集成方法在多数场景下表现更为稳健。