ARTICLE

L1正则化

L1正则化 (L1 Regularization) L1正则化(L1 Regularization),在统计学中也称为Lasso回归(Least Absolute Shrinkage and Selection Operator),是一种通过在损失函数中添加参数绝对值之和作为惩罚项来约束模型复杂度的正则化技术。其核心功能是在参数估计过程中同时实现系数收缩和变

浏览 0 更新 2025-10-26

L1正则化 (L1 Regularization)

L1正则化(L1 Regularization),在统计学中也称为Lasso回归(Least Absolute Shrinkage and Selection Operator),是一种通过在损失函数中添加参数绝对值之和作为惩罚项来约束模型复杂度的正则化技术。其核心功能是在参数估计过程中同时实现系数收缩变量选择,即使得部分不重要的变量系数被精确压缩至零,从而产生稀疏解。L1正则化由Robert Tibshirani于1996年提出,现已成为高维统计学习和机器学习中特征选择的标准方法。

数学形式与优化目标

在线性回归框架下,给定观测数据 (yi,xi)i=1n(y_i, \mathbf{x}_i)_{i=1}^n,其中 xiRp\mathbf{x}_i \in \mathbb{R}^p,标准OLS最小化残差平方和 i=1n(yixiTβ)2\sum_{i=1}^n (y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2。L1正则化在该目标上添加系数绝对值之和的惩罚:

β^L1=argminβ{i=1n(yixiTβ)2+λj=1pβj}\hat{\boldsymbol{\beta}}_{\text{L1}} = \arg\min_{\boldsymbol{\beta}} \left\{ \sum_{i=1}^n (y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2 + \lambda \sum_{j=1}^p |\beta_j| \right\}

其中 λ0\lambda \ge 0 为正则化参数,控制惩罚力度。当 λ=0\lambda = 0 时退化为OLS;当 λ\lambda \to \infty 时所有系数趋近于零。等价地可写为约束优化形式:

minβi=1n(yixiTβ)2s.t.j=1pβjt\min_{\boldsymbol{\beta}} \sum_{i=1}^n (y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2 \quad \text{s.t.} \quad \sum_{j=1}^p |\beta_j| \le t

约束区域为参数空间中以原点为中心的1\ell_1球(菱形),正是该几何形状驱动了稀疏性。

稀疏性的几何解释

L1正则化产生稀疏解的原因可通过几何直观理解。考虑二维参数空间中的等值线(椭圆)和约束区域。L2正则化(岭回归)的约束区域为圆形 β12+β22t\beta_1^2 + \beta_2^2 \le t,与等值线相切的点通常两个坐标均非零。而L1正则化的约束区域为菱形 β1+β2t|\beta_1| + |\beta_2| \le t,其角点位于坐标轴上。当等值线与约束区域在角点处相遇时,一个系数被精确压缩至零。在高维空间中,L1球具有更多角点,因此稀疏解出现的概率随维度增加而增大。

从优化角度看,L1惩罚在零点的不可微性(绝对值函数的次梯度性质)使得目标函数的KKT条件βj=0\beta_j = 0 处存在解区间,允许系数正好停留在零点。这是L1正则化区别于L2(在零点处梯度为零,系数可被任意缩小但不会精确为零)的关键机制。

计算求解

由于L1范数在零点不可微,无法直接用梯度下降法求解。实际计算主要采用两类算法:坐标下降法(Coordinate Descent),沿每个坐标方向逐一优化,通过软阈值算子更新系数,即 β^jSλ(xjTrj)/(xjTxj)\hat{\beta}_j \leftarrow S_{\lambda}(\mathbf{x}_j^T \mathbf{r}_{-j}) / (\mathbf{x}_j^T \mathbf{x}_j),其中 Sλ(z)=sign(z)max(zλ,0)S_{\lambda}(z) = \operatorname{sign}(z) \cdot \max(|z| - \lambda, 0)LARS算法(Least Angle Regression),沿与当前残差等角度的方向逐步添加变量,高效生成全部解路径。软阈值算子精确体现了L1的收缩-选择行为:当 zz 小于 λ\lambda 时直接归零,否则向零方向收缩 λ\lambda

与L2正则化的对比

L2正则化(岭回归)对所有系数施加均匀收缩但不会将其设为零,适合所有特征均对预测有贡献的场景。L1正则化则在收缩的同时执行变量选择,更适合真实模型仅涉及少数关键特征的高维稀疏场景。在预测精度方面,当真实模型确为稀疏时L1占优;当真实模型密集时L2通常更优。弹性网(Elastic Net)结合二者,惩罚项为 λ(αβj+(1α)βj2)\lambda(\alpha \sum |\beta_j| + (1-\alpha) \sum \beta_j^2),兼顾稀疏性和共线性处理。

正则化参数的选择

λ\lambda 的选择直接决定模型复杂度。常用方法为:K折交叉验证,在训练集上对不同 λ\lambda 值做K折CV,选择最小化交叉验证误差的 λ\lambda,常使用"一个标准误规则"(1-SE Rule)选择更简约的模型;信息准则如AICBIC,其中自由度近似为Lasso估计中非零系数的个数。在高维统计pnp \gg n)场景中,L1正则化是实现一致变量选择和最优预测的基础工具,其理论性质由相容性条件限制特征值条件等框架保证。