ARTICLE

岭回归 (Ridge Regression)

岭回归 (Ridge Regression) 岭回归（Ridge Regression），亦称Tikhonov正则化，是由统计学家Arthur Hoerl和Robert Kennard于1970年正式提出的一种正则化线性回归方法。其核心思想是在普通最小二乘法（OLS）的目标函数中引入一个对回归系数平方和（即L2范数的平方）的惩罚项，从而在保留所有预测变量的同

浏览 0 更新 2025-11-08

岭回归 (Ridge Regression)

岭回归（Ridge Regression），亦称Tikhonov正则化，是由统计学家Arthur Hoerl和Robert Kennard于1970年正式提出的一种正则化线性回归方法。其核心思想是在普通最小二乘法（OLS）的目标函数中引入一个对回归系数平方和（即L2范数的平方）的惩罚项，从而在保留所有预测变量的同时对系数进行收缩（shrinkage），以缓解多重共线性问题并降低模型的方差。

数学形式

给定观测数据 $(\mathbf{X}, \mathbf{y})$ ，其中 $\mathbf{X} \in \mathbb{R}^{n \times p}$ 为设计矩阵， $\mathbf{y} \in \mathbb{R}^n$ 为响应变量，岭回归的优化目标为：

\hat{\boldsymbol{\beta}}_{\text{ridge}} = \arg\min_{\boldsymbol{\beta}} \left\{ \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|_2^2 + \lambda \|\boldsymbol{\beta}\|_2^2 \right\}

其中 $\lambda \ge 0$ 为正则化参数（或称惩罚参数），控制收缩的强度。该优化问题具有解析闭式解：

\hat{\boldsymbol{\beta}}_{\text{ridge}} = (\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y}

当 $\lambda = 0$ 时，岭回归退化为OLS；当 $\lambda \to \infty$ 时， $\hat{\boldsymbol{\beta}}_{\text{ridge}} \to \mathbf{0}$ 。相较于OLS的正规方程解 $\hat{\boldsymbol{\beta}}_{\text{OLS}} = (\mathbf{X}^{\mathsf{T}} \mathbf{X})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y}$ ，岭回归的关键改进在于向 $\mathbf{X}^{\mathsf{T}} \mathbf{X}$ 的主对角线添加了正数 $\lambda$ ，这使得即使在 $\mathbf{X}^{\mathsf{T}} \mathbf{X}$ 奇异或近奇异的情况下， $\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I}$ 仍然严格正定且可逆——这正是岭回归能够处理 $p > n$ 高维设定以及严重多重共线性问题的根本原因。

偏差-方差权衡

岭回归估计量是有偏的： $\mathbb{E}[\hat{\boldsymbol{\beta}}_{\text{ridge}}] = (\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{X} \boldsymbol{\beta} \neq \boldsymbol{\beta}$ （当 $\lambda > 0$ 时）。但它的方差显著小于OLS估计量： $\operatorname{Var}(\hat{\boldsymbol{\beta}}_{\text{ridge}}) = \sigma^2 (\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{X} (\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I})^{-1}$ 。

通过选择适当的 $\lambda$ ，方差下降的幅度可以超过偏差平方的增加幅度，从而在均方误差（MSE）意义上获得优于OLS的估计——这是偏差-方差权衡（Bias-Variance Tradeoff）在模型估计中的典型体现。

奇异值分解视角

通过奇异值分解 $\mathbf{X} = \mathbf{U} \mathbf{D} \mathbf{V}^{\mathsf{T}}$ （其中 $\mathbf{D} = \operatorname{diag}(d_1, \ldots, d_p)$ ， $d_1 \ge \cdots \ge d_p \ge 0$ ），岭回归的拟合值可表示为：

\mathbf{X} \hat{\boldsymbol{\beta}}_{\text{ridge}} = \sum_{j=1}^{p} \mathbf{u}_j \frac{d_j^2}{d_j^2 + \lambda} \mathbf{u}_j^{\mathsf{T}} \mathbf{y}

每个主成分方向的系数被因子 $d_j^2 / (d_j^2 + \lambda)$ 收缩。对于大奇异值方向（ $d_j^2 \gg \lambda$ ），信号几乎完整保留；对于小奇异值方向（ $d_j^2 \ll \lambda$ ），系数被大幅抑制。这意味着岭回归优先"关闭"信噪比低的弱方向——这正是多重共线性中导致 $\mathbf{X}^{\mathsf{T}} \mathbf{X}$ 近奇异的方向。与主成分回归（PCR）直接丢弃小奇异值方向的硬阈值策略不同，岭回归对所有方向进行平滑收缩，避免了离散选择问题。

贝叶斯解释

从贝叶斯统计视角，岭回归等价于对回归系数施加均值为零的高斯先验分布。具体而言，若先验为 $\beta_j \sim \mathcal{N}(0, \tau^2)$ 且误差满足正态假设 $\varepsilon_i \sim \mathcal{N}(0, \sigma^2)$ ，则后验众数（MAP估计）恰好为岭回归的解，其中 $\lambda = \sigma^2 / \tau^2$ 。正则化参数 $\lambda$ 越大对应先验方差 $\tau^2$ 越小，表示对"系数接近零"的信念越强。这架起了频率学派正则化与贝叶斯收缩估计之间的桥梁。

与Lasso的对比

与Lasso回归相比，岭回归的L2惩罚将所有系数向零均匀收缩但不会精确归零，因此不执行变量选择，适合所有特征均对预测有贡献的场景；Lasso的L1惩罚则产生稀疏解（部分系数精确为零），适合真实模型仅涉及少量关键特征的高维稀疏场景。在预测精度方面，当信号密集分布时岭回归通常更优；当信号稀疏时Lasso更优。弹性网（Elastic Net）结合二者，兼顾稀疏性与组效应。

实践要点

实际应用中，所有预测变量通常在施加惩罚前被中心化和标准化至单位方差，使得惩罚作用于所有系数时尺度一致；截距项 $\beta_0$ 则不纳入惩罚。正则化参数 $\lambda$ 通常通过交叉验证（K折CV或广义交叉验证GCV）选择，其中岭回归的有效自由度定义为 $\operatorname{df}(\lambda) = \operatorname{tr}[\mathbf{X}(\mathbf{X}^{\mathsf{T}}\mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^{\mathsf{T}}] = \sum_{j=1}^{p} d_j^2 / (d_j^2 + \lambda)$ ，随 $\lambda$ 增大从 $p$ 平滑递减至0。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。