ARTICLE

LASSO回归

LASSO回归 (Least Absolute Shrinkage and Selection Operator) LASSO回归全称"最小绝对值收缩与选择算子"(Least Absolute Shrinkage and Selection Operator),由统计学家 Robert Tibshirani 于1996年提出。它是一种线性回归的正则化方法,通

浏览 3 更新 2025-10-29

LASSO回归 (Least Absolute Shrinkage and Selection Operator)

LASSO回归全称"最小绝对值收缩与选择算子"(Least Absolute Shrinkage and Selection Operator),由统计学家 Robert Tibshirani 于1996年提出。它是一种线性回归的正则化方法,通过在普通最小二乘(OLS)的损失函数上施加 L1L_1 惩罚项,在压缩系数的同时自动执行特征选择——部分不重要的变量系数被精确收缩为零,从而实现稀疏解。

数学形式

在标准线性回归 y=Xβ+ϵy = X\beta + \epsilon 的设定下,LASSO 的目标函数为:

β^LASSO=argminβ{i=1n(yij=1pxijβj)2+λj=1pβj}\hat{\beta}_{\text{LASSO}} = \arg\min_{\beta} \left\{ \sum_{i=1}^{n} \left( y_i - \sum_{j=1}^{p} x_{ij}\beta_j \right)^2 + \lambda \sum_{j=1}^{p} |\beta_j| \right\}

等价于在约束条件 j=1pβjt\sum_{j=1}^{p} |\beta_j| \leq t 下最小化残差平方和。其中 λ0\lambda \geq 0调节参数(或记作惩罚参数):λ\lambda 越大,惩罚力度越强,越多的系数会被压缩至零。

核心机制:L1L_1 正则化与特征选择

LASSO 之所以能够产生零系数,根源在于 L1L_1 范数的几何特性。考虑两个变量的情形:残差平方和的等高线围绕 OLS 估计值呈椭圆状,而约束区域 β1+β2t|\beta_1| + |\beta_2| \leq t 是一个在坐标轴上有尖角的菱形。最优解往往落在菱形的一个顶点上——恰好使其中一个系数正好为零。

这一机制在 pnp \gg n(变量数远超样本数)的高维统计中尤为重要:LASSO 可以自动筛选出少数真正有解释力的变量,兼具预测精度和模型可解释性。

与岭回归的比较

LASSO 与岭回归(Ridge Regression)是正则化回归的两大基础范式:

  • 岭回归使用 L2L_2 惩罚 λβj2\lambda \sum \beta_j^2,约束区域是圆形,系数被均匀压缩但几乎不可能恰好为零——因此岭回归保留所有变量,适合变量间高度相关且都不可舍弃的场景。
  • LASSO使用 L1L_1 惩罚,产生稀疏解,适合"真正重要的变量只是少数几个"的先验场景。
  • 弹性网(Elastic Net)将两者结合:λ1βj+λ2βj2\lambda_1 \sum |\beta_j| + \lambda_2 \sum \beta_j^2,既保留了 LASSO 的变量选择能力,又克服了 LASSO 在多重共线性下不稳定的缺点。

求解与调节参数选择

由于 L1L_1 范数在零点不可导,LASSO 无法直接求解析解。常用求解方法包括:

  1. 坐标下降法(Coordinate Descent):每次固定其他变量,沿一个坐标方向优化,利用软阈值(soft-thresholding)算子高效求解,是当前最主流的实现方式。
  2. 最小角回归(LARS, Least Angle Regression):Efron 等人于2004年提出,提供了一种计算 LASSO 完整正则化路径的高效算法。

调节参数 λ\lambda 的选择通常通过交叉验证(CV)来确定,一般选取使交叉验证均方误差最小(或满足"一个标准误"准则)的 λ\lambda 值。

应用与局限

LASSO 广泛应用于经济学、生物信息学、金融预测等领域中变量筛选和高维预测任务。例如在信用评分建模中从数百个候选指标中识别核心违约因子,在基因表达数据中定位与表型相关的关键基因。

其主要局限包括:当变量间存在高度相关(多重共线性)时,LASSO 倾向于任意选择其中一个而忽略其余,导致选择结果不稳定;在 n>pn > p 的普通场景下,预测性能通常不优于岭回归,甚至劣于 OLS。弹性网在此时是更好的替代方案。