岭回归 (Ridge Regression)
岭回归(Ridge Regression),亦称Tikhonov正则化,是由统计学家Arthur Hoerl和Robert Kennard于1970年正式提出的一种正则化线性回归方法。其核心思想是在普通最小二乘法(OLS)的目标函数中引入一个对回归系数平方和(即L2范数的平方)的惩罚项,从而在保留所有预测变量的同时对系数进行收缩(shrinkage),以缓解多重共线性问题并降低模型的方差。
数学形式
给定观测数据 (X,y),其中 X∈Rn×p 为设计矩阵,y∈Rn 为响应变量,岭回归的优化目标为:
β^ridge=argβmin{∥y−Xβ∥22+λ∥β∥22}
其中 λ≥0 为正则化参数(或称惩罚参数),控制收缩的强度。该优化问题具有解析闭式解:
β^ridge=(XTX+λI)−1XTy
当 λ=0 时,岭回归退化为OLS;当 λ→∞ 时,β^ridge→0。相较于OLS的正规方程解 β^OLS=(XTX)−1XTy,岭回归的关键改进在于向 XTX 的主对角线添加了正数 λ,这使得即使在 XTX 奇异或近奇异的情况下,XTX+λI 仍然严格正定且可逆——这正是岭回归能够处理 p>n 高维设定以及严重多重共线性问题的根本原因。
偏差-方差权衡
岭回归估计量是有偏的:E[β^ridge]=(XTX+λI)−1XTXβ=β(当 λ>0 时)。但它的方差显著小于OLS估计量:Var(β^ridge)=σ2(XTX+λI)−1XTX(XTX+λI)−1。
通过选择适当的 λ,方差下降的幅度可以超过偏差平方的增加幅度,从而在均方误差(MSE)意义上获得优于OLS的估计——这是偏差-方差权衡(Bias-Variance Tradeoff)在模型估计中的典型体现。
奇异值分解视角
通过奇异值分解 X=UDVT(其中 D=diag(d1,…,dp),d1≥⋯≥dp≥0),岭回归的拟合值可表示为:
Xβ^ridge=j=1∑pujdj2+λdj2ujTy
每个主成分方向的系数被因子 dj2/(dj2+λ) 收缩。对于大奇异值方向(dj2≫λ),信号几乎完整保留;对于小奇异值方向(dj2≪λ),系数被大幅抑制。这意味着岭回归优先"关闭"信噪比低的弱方向——这正是多重共线性中导致 XTX 近奇异的方向。与主成分回归(PCR)直接丢弃小奇异值方向的硬阈值策略不同,岭回归对所有方向进行平滑收缩,避免了离散选择问题。
贝叶斯解释
从贝叶斯统计视角,岭回归等价于对回归系数施加均值为零的高斯先验分布。具体而言,若先验为 βj∼N(0,τ2) 且误差满足正态假设 εi∼N(0,σ2),则后验众数(MAP估计)恰好为岭回归的解,其中 λ=σ2/τ2。正则化参数 λ 越大对应先验方差 τ2 越小,表示对"系数接近零"的信念越强。这架起了频率学派正则化与贝叶斯收缩估计之间的桥梁。
与Lasso的对比
与Lasso回归相比,岭回归的L2惩罚将所有系数向零均匀收缩但不会精确归零,因此不执行变量选择,适合所有特征均对预测有贡献的场景;Lasso的L1惩罚则产生稀疏解(部分系数精确为零),适合真实模型仅涉及少量关键特征的高维稀疏场景。在预测精度方面,当信号密集分布时岭回归通常更优;当信号稀疏时Lasso更优。弹性网(Elastic Net)结合二者,兼顾稀疏性与组效应。
实践要点
实际应用中,所有预测变量通常在施加惩罚前被中心化和标准化至单位方差,使得惩罚作用于所有系数时尺度一致;截距项 β0 则不纳入惩罚。正则化参数 λ 通常通过交叉验证(K折CV或广义交叉验证GCV)选择,其中岭回归的有效自由度定义为 df(λ)=tr[X(XTX+λI)−1XT]=∑j=1pdj2/(dj2+λ),随 λ 增大从 p 平滑递减至0。