ARTICLE

regularization

正则化 (Regularization) 正则化 (Regularization) 是统计学、计量经济学和机器学习中用于防止模型过拟合 (Overfitting) 的核心技术族。其基本思想是在模型拟合目标（如最小化残差平方和或最大化似然函数）之外，对模型参数的"复杂度"施加惩罚，从而在偏差-方差权衡 (Bias-Variance Tradeoff) 中向

浏览 5 更新 2026-07-15

正则化 (Regularization)

正则化 (Regularization) 是统计学、计量经济学和机器学习中用于防止模型过拟合 (Overfitting) 的核心技术族。其基本思想是在模型拟合目标（如最小化残差平方和或最大化似然函数）之外，对模型参数的"复杂度"施加惩罚，从而在偏差-方差权衡 (Bias-Variance Tradeoff) 中向更高偏差、更低方差的方向调节，提升模型在未见数据上的泛化性能。

正则化的理论根基可追溯至吉洪诺夫正则化 (Tikhonov Regularization, 1943)，用于求解不适定反问题。在统计学习中，正则化从 James-Stein估计量揭示的"收缩估计可优于无偏估计"这一反直觉事实中获得重要推动——Stein (1956) 证明在高维正态均值估计中，向原点收缩的估计量在均方误差意义上一致优于样本均值（最大似然估计）。这一发现奠定了现代正则化方法的理论基础：通过有偏收缩换取更低的整体风险。

惩罚项与正则化路径

设模型参数向量为 $\beta = (\beta_1, \ldots, \beta_p)^T$ ，记损失函数（如负对数似然或残差平方和）为 $\mathcal{L}(\beta)$ 。正则化估计量的一般形式为：

\hat{\beta}_{\text{reg}} = \arg\min_{\beta} \left\{ \mathcal{L}(\beta) + \lambda \cdot P(\beta) \right\}

其中 $P(\beta)$ 为惩罚函数 (Penalty Function)， $\lambda \geq 0$ 为正则化参数 (Regularization Parameter)，控制惩罚强度。当 $\lambda = 0$ 时退化为无正则化的经验风险最小化；当 $\lambda \to \infty$ 时所有参数被压缩至零。 $\lambda$ 的选取通常通过交叉验证 (Cross-Validation)、AIC、BIC 或广义交叉验证 (GCV) 等数据驱动方法。

随 $\lambda$ 从零增大，估计量 $\hat{\beta}(\lambda)$ 描绘出一条从无约束估计到零向量的连续轨迹，称为 正则化路径 (Regularization Path)。该路径的几何形状由惩罚函数 $P(\cdot)$ 的形式决定，不同的惩罚函数导致截然不同的收缩行为和变量选择特性。

主要正则化形式

$L_2$ 正则化（岭回归）

$L_2$ 正则化使用参数平方和作为惩罚： $P(\beta) = \|\beta\|_2^2 = \sum_{j=1}^{p} \beta_j^2$ 。由此产生的估计量称为 岭回归 (Ridge Regression, Hoerl 和 Kennard, 1970)。在普通最小二乘框架下，岭估计具有封闭解：

\hat{\beta}_{\text{ridge}} = (X^T X + \lambda I)^{-1} X^T y

其中添加的 $\lambda I$ 项使原本可能奇异的 $X^T X$ 矩阵变得可逆，因此岭回归天然处理多重共线性问题。岭回归将所有系数向零均匀收缩，但不产生稀疏解——即使 $\lambda$ 很大，系数也仅趋近于零而不精确为零。

$L_1$ 正则化 (LASSO)

$L_1$ 正则化使用参数绝对值之和作为惩罚： $P(\beta) = \|\beta\|_1 = \sum_{j=1}^{p} |\beta_j|$ 。LASSO (Least Absolute Shrinkage and Selection Operator, Tibshirani, 1996) 的核心优势在于其产生稀疏解——当 $\lambda$ 足够大时，部分系数被精确估计为零，从而同时完成参数估计和变量选择。这一性质源自 $L_1$ 球的几何形状：在参数空间中， $L_1$ 约束区域的尖角位于坐标轴上，使得目标函数等高线首次接触约束边界时倾向于"击中"某个角，对应部分系数为零。

LASSO 的局限性在于：当预测变量高度相关时，LASSO 倾向于随机选择其中一个而忽略其余；当 $p > n$ （变量数超过样本数）时，LASSO 最多只能选出 $n$ 个变量。

弹性网 (Elastic Net)

弹性网 (Zou 和 Hastie, 2005) 结合 $L_1$ 和 $L_2$ 惩罚：

P(\beta) = \alpha \|\beta\|_1 + \frac{1-\alpha}{2} \|\beta\|_2^2

其中 $\alpha \in [0, 1]$ 控制两种惩罚的混合比例。弹性网继承了 LASSO 的稀疏性和岭回归处理相关变量的稳定性，在 $p \gg n$ 场景下表现尤为出色，能选出超过 $n$ 个变量。

其他正则化形式

弹性网之外，SCAD (Smoothly Clipped Absolute Deviation, Fan 和 Li, 2001) 和 MCP (Minimax Concave Penalty, Zhang, 2010) 是两种非凸惩罚函数，旨在同时实现无偏性、稀疏性和连续性（Oracle 性质）。分组 LASSO (Group LASSO, Yuan 和 Lin, 2006) 在惩罚中使用参数的组范数，使整组变量被同时选入或剔除，适用于分类变量的虚拟编码组等场景。融合 LASSO (Fused LASSO) 对相邻系数的差异施加 $L_1$ 惩罚，适用于有序特征（如时间序列或空间数据）。

贝叶斯解释

正则化具有自然的贝叶斯解释。在贝叶斯统计框架下，惩罚函数对应于参数的先验分布： $L_2$ 惩罚等价于参数服从正态分布先验 $\beta_j \sim N(0, \tau^2)$ ，其中 $\tau^2 \propto 1/\lambda$ ； $L_1$ 惩罚等价于参数服从拉普拉斯分布（双指数分布）先验 $\beta_j \sim \text{Laplace}(0, 1/\lambda)$ 。LASSO 产生稀疏解的原因在贝叶斯视角下变得直观：拉普拉斯分布在零处具有尖锐峰值且尾部比正态分布更厚，使得后验分布在零处具有更高的概率质量。正则化参数 $\lambda$ 的选取等价于超参数调优，可进一步通过经验贝叶斯方法或分层先验处理。

在计量经济学中的应用

正则化方法在当代计量经济学中应用广泛。高维回归情形——例如使用大量控制变量、工具变量或交互项——LASSO 及其变体被用于从大量潜在控制变量中筛选关键变量。Belloni, Chernozhukov 和 Hansen (2014) 提出的 后双选 LASSO (Post-Double-Selection LASSO) 在高维处理效应估计中具有重要的理论保证：先通过 LASSO 分别在结果方程和处理方程中筛选控制变量，再对并集变量进行普通最小二乘回归，从而获得处理效应的有效推断。

在宏观经济学的 VAR 模型中，贝叶斯 VAR (BVAR) 通过明尼苏达先验 (Minnesota Prior) 对远滞后项的系数施加更强的收缩——本质上是一种以随机游走为中心的 $L_2$ 正则化，有效解决了无约束 VAR 中参数数量相对于样本量过大导致的预测精度低下的"维数灾难"问题。

在资产定价领域，均值-方差优化 对输入误差极度敏感——估计的协方差矩阵的微小扰动可能导致投资组合权重的剧烈变化。对协方差矩阵施加正则化（如收缩至对角矩阵或结构化目标）可显著提升样本外组合表现，Ledoit 和 Wolf (2004) 的线性收缩估计量是该方向的经典工作。

计算方面

正则化估计量的计算通常涉及带约束或带惩罚的凸优化。对于 $L_1$ 类惩罚，目标函数在零点不可微，传统梯度方法失效。坐标下降法 (Coordinate Descent) 是求解 LASSO 和弹性网最常用的算法——每次仅优化一个坐标方向，对 $L_1$ 惩罚可使用软阈值算子 (Soft-Thresholding Operator) 获得闭式更新。LARS (Least Angle Regression, Efron 等, 2004) 提供了计算 LASSO 整个正则化路径的高效方法，其计算成本与普通最小二乘相当。对于大规模问题，随机梯度下降 和 ADMM (Alternating Direction Method of Multipliers) 等分布式算法被广泛采用。

局限性与注意事项

正则化虽有强力理论支撑，使用中需注意几点。第一，惩罚参数 $\lambda$ 的选择至关重要——过小则正则化效果不足，过大则引入不可忽视的偏差；交叉验证虽广泛使用，但在时间序列等相依数据下其有效性需谨慎评估。第二，正则化估计量是有偏估计量，传统基于正态理论的置信区间和 $p$ 值可能失效，需采用 Bootstrap、选择性推断 (Selective Inference) 或去偏 LASSO (Debiased LASSO) 等专门技术。第三， $L_1$ 正则化虽然产生稀疏解，但在相关变量结构中模型选择可能不稳定——自助法重复抽样可能给出差异极大的变量子集，此时弹性网或稳定性选择 (Stability Selection, Meinshausen 和 Bühlmann, 2010) 是更可靠的选择。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。