ARTICLE

岭回归

岭回归 (Ridge Regression) 岭回归 (Ridge Regression),亦称吉洪诺夫正则化 (Tikhonov regularization),是统计学与机器学习领域中对线性回归模型的一种改进方法,属于正则化技术之一。该方法专门用于解决普通最小二乘法 (Ordinary Least Squares, OLS) 在处理多重共线性数据时遇到的

浏览 70 更新 2025-10-26

岭回归 (Ridge Regression)

岭回归 (Ridge Regression),亦称吉洪诺夫正则化 (Tikhonov regularization),是统计学机器学习领域中对线性回归模型的一种改进方法,属于正则化技术之一。该方法专门用于解决普通最小二乘法 (Ordinary Least Squares, OLS) 在处理多重共线性数据时遇到的系数估计不稳定、方差过大等问题。其核心思想是在 OLS 的损失函数中加入一个惩罚项,惩罚模型系数的绝对大小,从而将系数向零"压缩" (shrink)。这种压缩可以显著降低模型因多重共线性而产生的估计方差,代价是引入少量偏差,使模型在偏差与方差之间取得更优的平衡。

普通最小二乘法的局限性

OLS 的目标是找到回归系数 β\beta,使得模型的残差平方和 (Sum of Squared Residuals, RSS) 最小。对于包含 pp预测变量的线性模型,其目标函数为:

RSS=i=1n(yiβ0j=1pβjxij)2\text{RSS} = \sum_{i=1}^{n} \left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2

其中 yiy_i 是第 ii 个观测的真实值,y^i\hat{y}_i 是模型的预测值,βj\beta_j 是第 jj 个预测变量的系数。

OLS 在高斯--马尔可夫定理下是最优线性无偏估计量,但当预测变量之间存在高度相关性(即多重共线性)时,OLS 面临三个严重问题:第一,系数的方差变得极大,数据微小改动可导致系数剧烈变化甚至符号反转,模型极不稳定;第二,由于系数不可靠,模型的经济含义与解释性大打折扣;第三,当特征数量 pp 接近或超过样本数量 nn 时,模型倾向于完美拟合训练数据,造成过拟合,对新数据的泛化能力很差。岭回归正是为应对这些挑战而设计的。

原理与数学表示

岭回归通过在 OLS 的目标函数上增加一个 L2 惩罚项 (L2 penalty) 来修改优化目标。该惩罚项是所有回归系数(通常不包括截距项 β0\beta_0)平方和的 λ\lambda 倍:

Ridge Objective=RSS+λj=1pβj2\text{Ridge Objective} = \text{RSS} + \lambda \sum_{j=1}^{p} \beta_j^2

其中 j=1pβj2\sum_{j=1}^{p} \beta_j^2 是回归系数向量的平方L2 范数λ0\lambda \geq 0调优参数 (tuning parameter),控制惩罚强度。λ\lambda 的作用可通过三种极端情形加以理解:

  • λ=0\lambda = 0:惩罚项无效,岭回归退化为标准的 OLS。
  • λ>0\lambda > 0:模型须在减小 RSS 和减小系数平方和之间寻求平衡。λ\lambda 越大,对大系数的惩罚越重,系数压缩越强,模型复杂度越低。
  • λ\lambda \to \infty:所有系数 βj\beta_j 趋近于零,模型退化为仅用响应变量的均值进行预测的零模型。

岭回归的系数估计具有闭式解,矩阵形式简洁直观:

β^Ridge=(XX+λI)1Xy\hat{\beta}_{\text{Ridge}} = (X^\top X + \lambda I)^{-1} X^\top y

其中 II 为单位矩阵。回顾 OLS 的估计公式 β^OLS=(XX)1Xy\hat{\beta}_{\text{OLS}} = (X^\top X)^{-1} X^\top y,当存在多重共线性时矩阵 XXX^\top X 接近奇异,求逆极不稳定。岭回归通过向 XXX^\top X 的对角线元素添加正数 λ\lambda,使得 (XX+λI)(X^\top X + \lambda I) 始终可逆,从根本上稳定了系数的估计过程。这一添加正则项的做法即为吉洪诺夫正则化的核心思想。

偏差--方差权衡

岭回归是理解偏差-方差权衡 (Bias--Variance Trade-off) 的经典范例。OLS 虽无偏,但在多重共线性下方差极大;岭回归通过惩罚将系数向零压缩,虽引入偏差但大幅降低了方差。根据均方误差 (MSE) 的分解公式:

MSE=Bias2+Variance\text{MSE} = \text{Bias}^2 + \text{Variance}

λ\lambda 选择得当时,方差的减少量将远超偏差平方的增加量,从而使岭回归模型的整体预测 MSE 低于 OLS 模型。这一取舍正是正则化方法的核心逻辑:以可接受的偏差换取更大的方差缩减,从而降低总体预测误差。实践中,岭回归在测试集上的表现通常优于 OLS,正是得益于这种偏差--方差之间的有效权衡。

实践注意事项

数据标准化:岭回归使用前须对预测变量进行标准化处理,这至关重要。原因在于惩罚项 λβj2\lambda \sum \beta_j^2 对各系数的惩罚力度是统一的。若变量量纲不同(例如年龄单位为年,收入单位为万元),收入系数的数值自然远小于年龄系数,对二者施加相同惩罚显然有失公允。标准做法是将所有预测变量转化为均值为零、标准差为一的形式。

最优 λ\lambda 的选择λ\lambda 过小则正则化效果不足,无法有效缓解多重共线性;λ\lambda 过大则过度压缩系数,导致模型欠拟合。最优 λ\lambda 通常通过交叉验证 (Cross-validation) 确定。最常用的方法是 K 折交叉验证:将训练数据随机均分为 K 个子集,对每个候选 λ\lambda 值依次取 K--1 个子集拟合模型,在余下的一个子集上评估 MSE,重复 K 次后选择平均 MSE 最小的 λ\lambda 作为最终模型的调优参数。

岭回归与 LASSO 的对比

岭回归和LASSO (Least Absolute Shrinkage and Selection Operator) 是最常用的两种正则化方法,二者关键区别如下:

  • 惩罚项不同:岭回归使用 L2 惩罚 (λβj2\lambda \sum \beta_j^2),LASSO 使用 L1 惩罚 (λβj\lambda \sum |\beta_j|)。这一数学差异导致了截然不同的几何性质与统计特性。
  • 变量选择特性:L1 惩罚的约束区域在二维空间中呈菱形,顶点恰好在坐标轴上,因此 LASSO 可将不重要变量的系数精确压缩至,实现自动变量选择,产生稀疏且易于解释的模型。岭回归的 L2 惩罚约束区域为圆形,仅将系数压缩至接近零,但不会精确归零。
  • 适用场景:当模型中大部分预测变量都对响应变量有贡献时,岭回归通常预测精度更高;当仅少数变量真正重要、其余多为噪声时,LASSO 因具备变量选择能力而表现更佳。

此外,结合 L1 与 L2 两种惩罚的弹性网络 (Elastic Net) 回归能在某些场景下综合两者的优势,尤其适合处理高维数据中的分组变量选择问题。

小结

岭回归通过在 OLS 损失函数中加入 L2 惩罚项,以引入偏差为代价大幅降低模型方差,有效应对多重共线性和过拟合问题。其成功关键在于 λ\lambda 的合理选择,须借助交叉验证在偏差与方差之间取得平衡。与 LASSO 相比,岭回归虽缺乏变量选择能力,但在特征均与响应变量相关的场景中预测精度往往更优。作为正则化方法的理论基石,岭回归对于理解现代统计学习与机器学习中的模型正则化具有重要意义。