ARTICLE

岭回归 (Ridge Regression)

岭回归 (Ridge Regression) 岭回归(Ridge Regression),亦称Tikhonov正则化,是由统计学家Arthur Hoerl和Robert Kennard于1970年正式提出的一种正则化线性回归方法。其核心思想是在普通最小二乘法(OLS)的目标函数中引入一个对回归系数平方和(即L2范数的平方)的惩罚项,从而在保留所有预测变量的同

浏览 0 更新 2025-11-08

岭回归 (Ridge Regression)

岭回归(Ridge Regression),亦称Tikhonov正则化,是由统计学家Arthur Hoerl和Robert Kennard于1970年正式提出的一种正则化线性回归方法。其核心思想是在普通最小二乘法(OLS)的目标函数中引入一个对回归系数平方和(即L2范数的平方)的惩罚项,从而在保留所有预测变量的同时对系数进行收缩(shrinkage),以缓解多重共线性问题并降低模型的方差

数学形式

给定观测数据 (X,y)(\mathbf{X}, \mathbf{y}),其中 XRn×p\mathbf{X} \in \mathbb{R}^{n \times p} 为设计矩阵,yRn\mathbf{y} \in \mathbb{R}^n 为响应变量,岭回归的优化目标为:

β^ridge=argminβ{yXβ22+λβ22}\hat{\boldsymbol{\beta}}_{\text{ridge}} = \arg\min_{\boldsymbol{\beta}} \left\{ \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|_2^2 + \lambda \|\boldsymbol{\beta}\|_2^2 \right\}

其中 λ0\lambda \ge 0 为正则化参数(或称惩罚参数),控制收缩的强度。该优化问题具有解析闭式解:

β^ridge=(XTX+λI)1XTy\hat{\boldsymbol{\beta}}_{\text{ridge}} = (\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y}

λ=0\lambda = 0 时,岭回归退化为OLS;当 λ\lambda \to \infty 时,β^ridge0\hat{\boldsymbol{\beta}}_{\text{ridge}} \to \mathbf{0}。相较于OLS的正规方程解 β^OLS=(XTX)1XTy\hat{\boldsymbol{\beta}}_{\text{OLS}} = (\mathbf{X}^{\mathsf{T}} \mathbf{X})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y},岭回归的关键改进在于向 XTX\mathbf{X}^{\mathsf{T}} \mathbf{X} 的主对角线添加了正数 λ\lambda,这使得即使在 XTX\mathbf{X}^{\mathsf{T}} \mathbf{X} 奇异或近奇异的情况下,XTX+λI\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I} 仍然严格正定且可逆——这正是岭回归能够处理 p>np > n 高维设定以及严重多重共线性问题的根本原因。

偏差-方差权衡

岭回归估计量是有偏的:E[β^ridge]=(XTX+λI)1XTXββ\mathbb{E}[\hat{\boldsymbol{\beta}}_{\text{ridge}}] = (\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{X} \boldsymbol{\beta} \neq \boldsymbol{\beta}(当 λ>0\lambda > 0 时)。但它的方差显著小于OLS估计量:Var(β^ridge)=σ2(XTX+λI)1XTX(XTX+λI)1\operatorname{Var}(\hat{\boldsymbol{\beta}}_{\text{ridge}}) = \sigma^2 (\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{X} (\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I})^{-1}

通过选择适当的 λ\lambda,方差下降的幅度可以超过偏差平方的增加幅度,从而在均方误差(MSE)意义上获得优于OLS的估计——这是偏差-方差权衡(Bias-Variance Tradeoff)在模型估计中的典型体现。

奇异值分解视角

通过奇异值分解 X=UDVT\mathbf{X} = \mathbf{U} \mathbf{D} \mathbf{V}^{\mathsf{T}}(其中 D=diag(d1,,dp)\mathbf{D} = \operatorname{diag}(d_1, \ldots, d_p)d1dp0d_1 \ge \cdots \ge d_p \ge 0),岭回归的拟合值可表示为:

Xβ^ridge=j=1pujdj2dj2+λujTy\mathbf{X} \hat{\boldsymbol{\beta}}_{\text{ridge}} = \sum_{j=1}^{p} \mathbf{u}_j \frac{d_j^2}{d_j^2 + \lambda} \mathbf{u}_j^{\mathsf{T}} \mathbf{y}

每个主成分方向的系数被因子 dj2/(dj2+λ)d_j^2 / (d_j^2 + \lambda) 收缩。对于大奇异值方向(dj2λd_j^2 \gg \lambda),信号几乎完整保留;对于小奇异值方向(dj2λd_j^2 \ll \lambda),系数被大幅抑制。这意味着岭回归优先"关闭"信噪比低的弱方向——这正是多重共线性中导致 XTX\mathbf{X}^{\mathsf{T}} \mathbf{X} 近奇异的方向。与主成分回归(PCR)直接丢弃小奇异值方向的硬阈值策略不同,岭回归对所有方向进行平滑收缩,避免了离散选择问题。

贝叶斯解释

贝叶斯统计视角,岭回归等价于对回归系数施加均值为零的高斯先验分布。具体而言,若先验为 βjN(0,τ2)\beta_j \sim \mathcal{N}(0, \tau^2) 且误差满足正态假设 εiN(0,σ2)\varepsilon_i \sim \mathcal{N}(0, \sigma^2),则后验众数(MAP估计)恰好为岭回归的解,其中 λ=σ2/τ2\lambda = \sigma^2 / \tau^2。正则化参数 λ\lambda 越大对应先验方差 τ2\tau^2 越小,表示对"系数接近零"的信念越强。这架起了频率学派正则化与贝叶斯收缩估计之间的桥梁。

与Lasso的对比

Lasso回归相比,岭回归的L2惩罚将所有系数向零均匀收缩但不会精确归零,因此不执行变量选择,适合所有特征均对预测有贡献的场景;Lasso的L1惩罚则产生稀疏解(部分系数精确为零),适合真实模型仅涉及少量关键特征的高维稀疏场景。在预测精度方面,当信号密集分布时岭回归通常更优;当信号稀疏时Lasso更优。弹性网(Elastic Net)结合二者,兼顾稀疏性与组效应。

实践要点

实际应用中,所有预测变量通常在施加惩罚前被中心化标准化至单位方差,使得惩罚作用于所有系数时尺度一致;截距项 β0\beta_0 则不纳入惩罚。正则化参数 λ\lambda 通常通过交叉验证(K折CV或广义交叉验证GCV)选择,其中岭回归的有效自由度定义为 df(λ)=tr[X(XTX+λI)1XT]=j=1pdj2/(dj2+λ)\operatorname{df}(\lambda) = \operatorname{tr}[\mathbf{X}(\mathbf{X}^{\mathsf{T}}\mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^{\mathsf{T}}] = \sum_{j=1}^{p} d_j^2 / (d_j^2 + \lambda),随 λ\lambda 增大从 pp 平滑递减至0。