ARTICLE

L2正则化

L2正则化 (L2 Regularization) L2正则化(L2 Regularization),在统计学中称为岭回归(Ridge Regression),是一种通过在损失函数中添加参数平方和作为惩罚项来约束模型复杂度的正则化技术。其核心思想是:在拟合数据的同时惩罚过大的回归系数,从而抑制模型对训练数据中噪声的过度捕捉。与L1正则化产生稀疏解(部分系数精

浏览 0 更新 2025-11-08

L2正则化 (L2 Regularization)

L2正则化(L2 Regularization),在统计学中称为岭回归(Ridge Regression),是一种通过在损失函数中添加参数平方和作为惩罚项来约束模型复杂度的正则化技术。其核心思想是:在拟合数据的同时惩罚过大的回归系数,从而抑制模型对训练数据中噪声的过度捕捉。与L1正则化产生稀疏解(部分系数精确为零)不同,L2正则化将所有系数向零方向均匀收缩但不会精确归零,因此在降低模型方差的同时保留所有特征的信息。

该方法在数学上最早由苏联数学家Andrey Tikhonov于1943年提出,用于求解不适定的反问题(ill-posed inverse problems),故亦称Tikhonov正则化。1970年,统计学家Arthur Hoerl和Robert Kennard将其引入线性回归领域,用于解决多重共线性导致的OLS估计不稳定问题。如今,L2正则化已从线性模型推广至深度学习(称为权重衰减,weight decay)、支持向量机矩阵分解等广泛领域,是机器学习中最基础、最常用的正则化手段之一。

数学形式与闭式解

在线性回归框架下,给定观测数据 (yi,xi)i=1n(y_i, \mathbf{x}_i)_{i=1}^n,其中 xiRp\mathbf{x}_i \in \mathbb{R}^p,L2正则化的优化目标为:

β^L2=argminβ{i=1n(yixiTβ)2+λj=1pβj2}\hat{\boldsymbol{\beta}}_{\text{L2}} = \arg\min_{\boldsymbol{\beta}} \left\{ \sum_{i=1}^n (y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\}

其中 λ0\lambda \ge 0 为正则化参数。与L1正则化不同,L2惩罚项处处可微,因此存在闭式解:

β^L2=(XTX+λI)1XTy\hat{\boldsymbol{\beta}}_{\text{L2}} = (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y}

这一形式的优势在于:即使 XTX\mathbf{X}^T \mathbf{X} 不满秩(多重共线性情形),添加 λI\lambda \mathbf{I} 后矩阵始终可逆,从而保证了估计的数值稳定性。等价地,该问题可写为约束优化形式 minβyXβ2\min_{\boldsymbol{\beta}} \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 满足 βj2t\sum \beta_j^2 \le t,约束区域为以原点为中心的2\ell_2球。

收缩性与几何解释

L2正则化不产生稀疏解的原因可从几何与优化两个角度理解。

几何角度:在二维参数空间中,残差平方和的等值线是一族椭圆(由XTX\mathbf{X}^T\mathbf{X}的特征结构决定其方向和扁率)。L2的约束区域为圆形 β12+β22t\beta_1^2 + \beta_2^2 \le t2\ell_2球),切点处的法向量与椭圆在该点的法向量共线。由于圆形光滑无尖角,切点几乎总是落在坐标轴之外——两个系数均非零。而L1的菱形约束区域在坐标轴上有尖角,椭圆等高线在尖角处与之相切时,对应系数恰好为零。在高维情形中,2\ell_2球完全光滑的特性保证了L2永远不会自动产生零系数。

优化角度:考虑L2惩罚项在零点附近的导数行为。对βj\beta_j求导得 (λβj2)/βj=2λβj\partial (\lambda \beta_j^2)/\partial \beta_j = 2\lambda\beta_j,当 βj=0\beta_j = 0 时梯度为零。这意味着在原点处没有将系数"推开"或"拉回"的力——只要残差平方和的梯度分量也恰好为零,系数就可以停在零处,但这种情况几乎不会自发出现。相比之下,L1惩罚项 λβj\lambda|\beta_j| 在零点不可微,其次梯度为区间 [λ,λ][-\lambda, \lambda],形成一个λ\lambda-宽度的"死区":只要残差平方和的梯度分量落在此区间内,系数就精确保持为零。这一机制解释了L1的变量选择性质和L2的纯收缩性质之间的根本差异。

收缩强度由 λ\lambda 控制:当 λ0\lambda \to 0 时退化为OLS;当 λ\lambda \to \infty 时所有系数趋近于零。对于一组彼此高度相关的特征,L2倾向于将系数近似均匀地分配给它们——例如两个几乎共线的变量各得权重的一半——而非像L1那样非对称地选择其中一者而丢弃其余。这种"群体收缩"(group shrinkage)特性使L2在特征间存在强相关性时表现更稳定、更具可解释性。

Bias-Variance Trade-off

L2正则化是Bias-Variance Trade-off的经典体现。设 β^\hat{\boldsymbol{\beta}}均方误差可分解为:

MSE(β^)=Bias2(β^)+Variance(β^)\text{MSE}(\hat{\boldsymbol{\beta}}) = \text{Bias}^2(\hat{\boldsymbol{\beta}}) + \text{Variance}(\hat{\boldsymbol{\beta}})

岭回归估计是有偏的:E[β^L2]=(XTX+λI)1XTXββ\mathbb{E}[\hat{\boldsymbol{\beta}}_{\text{L2}}] = (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} \ne \boldsymbol{\beta}(当 λ>0\lambda > 0 时)。但它的方差小于OLS:Var(β^L2)=σ2(XTX+λI)1XTX(XTX+λI)1\text{Var}(\hat{\boldsymbol{\beta}}_{\text{L2}}) = \sigma^2 (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{X} (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1}。当 λ\lambda 取适当值时,方差下降的幅度超过偏差平方的增加,从而降低整体MSE。这一性质解释了为何L2正则化能在预测任务中优于无偏的OLS估计。

贝叶斯解释

贝叶斯统计视角,L2正则化等价于对回归系数施加均值为零的高斯先验分布。具体而言,若先验为 βjN(0,τ2)\beta_j \sim \mathcal{N}(0, \tau^2) 且误差满足正态假设,则后验众数(MAP估计)恰好为岭回归的解,其中 λ=σ2/τ2\lambda = \sigma^2 / \tau^2。正则化参数 λ\lambda 越大对应先验方差 τ2\tau^2 越小,表示对"系数接近零"的信念越强。相比之下,L1正则化对应Laplace先验,其尖峰和厚尾特性解释了稀疏性。这一联系架起了频率学派正则化与贝叶斯收缩估计之间的桥梁。

正则化参数的选择

λ\lambda 的选择是L2正则化的核心实践问题。主流方法包括:K折交叉验证,将数据划分为K个子集,轮流以K-1份训练、1份验证,选择最小化平均验证误差的 λ\lambda广义交叉验证(GCV),利用岭回归的线性光滑器性质给出闭式近似,避免重复拟合;以及信息准则(AIC、BIC),其中岭回归的有效自由度定义为 df(λ)=tr[X(XTX+λI)1XT]=j=1pdj2dj2+λ\text{df}(\lambda) = \operatorname{tr}[\mathbf{X}(\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T] = \sum_{j=1}^p \frac{d_j^2}{d_j^2 + \lambda}djd_jX\mathbf{X} 的奇异值。该定义揭示了随着 λ\lambda 增大,有效参数个数从 pp 平滑递减至0。

计算与SVD视角

岭回归的闭式解可通过奇异值分解(SVD)获得更深刻的理解。设 X=UDVT\mathbf{X} = \mathbf{U} \mathbf{D} \mathbf{V}^T,其中 D\mathbf{D} 的对角元 d1d2dp0d_1 \ge d_2 \ge \cdots \ge d_p \ge 0 为奇异值,则岭回归的拟合值为:

y^ridge=Xβ^L2=j=1pujdj2dj2+λujTy\hat{\mathbf{y}}_{\text{ridge}} = \mathbf{X} \hat{\boldsymbol{\beta}}_{\text{L2}} = \sum_{j=1}^p \mathbf{u}_j \frac{d_j^2}{d_j^2 + \lambda} \mathbf{u}_j^T \mathbf{y}

与OLS(λ=0\lambda = 0)相比,每个主成分方向上的系数被因子 dj2/(dj2+λ)d_j^2 / (d_j^2 + \lambda) 收缩。对于大奇异值对应的方向(dj2λd_j^2 \gg \lambda),收缩因子接近1,信号几乎完整保留;对于小奇异值对应的方向(dj2λd_j^2 \ll \lambda),收缩因子趋近于零,相应方向被大幅抑制。这意味着岭回归优先"关闭"那些方差小、信噪比低的方向——恰好是多重共线性中导致 XTX\mathbf{X}^T\mathbf{X} 近似奇异的方向。这一视角也自然引出了主成分回归(PCR):PCR直接丢弃小奇异值方向,而岭回归是对所有方向做平滑收缩,两者思路相通但岭回归避免了硬阈值的离散选择问题。

与L1正则化及弹性网的比较

L1与L2的核心区别源于惩罚范数的选择,导致截然不同的解结构。L1(Lasso)产生稀疏解,适合高维特征筛选场景(pnp \gg n),但面对一组高度相关的变量时倾向于任意挑选其一,可能忽略变量间的联合效应;L2(Ridge)产生收缩但非稀疏解,系数全为非零,在特征均具预测力或存在强共线性的密集场景中占优,且因闭式解的存在计算上更为便捷。

弹性网(Elastic Net)通过惩罚项 λ(αβj+(1α)βj2)\lambda(\alpha \sum |\beta_j| + (1-\alpha) \sum \beta_j^2) 将两者统一在同一框架中:α=1\alpha = 1 退化为Lasso,α=0\alpha = 0 退化为Ridge,0<α<10 < \alpha < 1 时同时享有L1的变量选择能力和L2的共线性处理与群组效应。弹性网在处理"pnp \gg n且特征分组相关"的场景中尤为有效,是实践中广泛使用的折中方案。

在现代深度学习中,L2正则化以"权重衰减"的形式应用于神经网络训练的每个梯度更新步中——等价于在损失函数中附加所有权重的平方和惩罚。这一简单而有效的技巧配合随机梯度下降DropoutBatch Normalization等技术,构成了现代深度网络正则化策略的基本组件。PyTorch和TensorFlow等主流框架均在优化器层面内置了权重衰减支持。