ARTICLE

regularization

正则化 (Regularization) 正则化 (Regularization) 是统计学、计量经济学和机器学习中用于防止模型 过拟合 (Overfitting) 的核心技术族。其基本思想是在模型拟合目标(如最小化残差平方和或最大化似然函数)之外,对模型参数的"复杂度"施加惩罚,从而在 偏差-方差权衡 (Bias-Variance Tradeoff) 中向

浏览 5 更新 2026-07-15

正则化 (Regularization)

正则化 (Regularization) 是统计学、计量经济学和机器学习中用于防止模型 过拟合 (Overfitting) 的核心技术族。其基本思想是在模型拟合目标(如最小化残差平方和或最大化似然函数)之外,对模型参数的"复杂度"施加惩罚,从而在 偏差-方差权衡 (Bias-Variance Tradeoff) 中向更高偏差、更低方差的方向调节,提升模型在未见数据上的泛化性能。

正则化的理论根基可追溯至 吉洪诺夫正则化 (Tikhonov Regularization, 1943),用于求解不适定反问题。在统计学习中,正则化从 James-Stein估计量 揭示的"收缩估计可优于无偏估计"这一反直觉事实中获得重要推动——Stein (1956) 证明在高维正态均值估计中,向原点收缩的估计量在均方误差意义上一致优于样本均值(最大似然估计)。这一发现奠定了现代正则化方法的理论基础:通过有偏收缩换取更低的整体风险。

惩罚项与正则化路径

设模型参数向量为 β=(β1,,βp)T\beta = (\beta_1, \ldots, \beta_p)^T,记损失函数(如负对数似然或残差平方和)为 L(β)\mathcal{L}(\beta)。正则化估计量的一般形式为:

β^reg=argminβ{L(β)+λP(β)}\hat{\beta}_{\text{reg}} = \arg\min_{\beta} \left\{ \mathcal{L}(\beta) + \lambda \cdot P(\beta) \right\}

其中 P(β)P(\beta) 为惩罚函数 (Penalty Function),λ0\lambda \geq 0 为正则化参数 (Regularization Parameter),控制惩罚强度。当 λ=0\lambda = 0 时退化为无正则化的经验风险最小化;当 λ\lambda \to \infty 时所有参数被压缩至零。λ\lambda 的选取通常通过 交叉验证 (Cross-Validation)、AICBIC 或广义交叉验证 (GCV) 等数据驱动方法。

λ\lambda 从零增大,估计量 β^(λ)\hat{\beta}(\lambda) 描绘出一条从无约束估计到零向量的连续轨迹,称为 正则化路径 (Regularization Path)。该路径的几何形状由惩罚函数 P()P(\cdot) 的形式决定,不同的惩罚函数导致截然不同的收缩行为和变量选择特性。

主要正则化形式

L2L_2 正则化(岭回归)

L2L_2 正则化使用参数平方和作为惩罚:P(β)=β22=j=1pβj2P(\beta) = \|\beta\|_2^2 = \sum_{j=1}^{p} \beta_j^2。由此产生的估计量称为 岭回归 (Ridge Regression, Hoerl 和 Kennard, 1970)。在普通最小二乘框架下,岭估计具有封闭解:

β^ridge=(XTX+λI)1XTy\hat{\beta}_{\text{ridge}} = (X^T X + \lambda I)^{-1} X^T y

其中添加的 λI\lambda I 项使原本可能奇异的 XTXX^T X 矩阵变得可逆,因此岭回归天然处理 多重共线性 问题。岭回归将所有系数向零均匀收缩,但不产生稀疏解——即使 λ\lambda 很大,系数也仅趋近于零而不精确为零。

L1L_1 正则化 (LASSO)

L1L_1 正则化使用参数绝对值之和作为惩罚:P(β)=β1=j=1pβjP(\beta) = \|\beta\|_1 = \sum_{j=1}^{p} |\beta_j|LASSO (Least Absolute Shrinkage and Selection Operator, Tibshirani, 1996) 的核心优势在于其产生稀疏解——当 λ\lambda 足够大时,部分系数被精确估计为零,从而同时完成参数估计和 变量选择。这一性质源自 L1L_1 球的几何形状:在参数空间中,L1L_1 约束区域的尖角位于坐标轴上,使得目标函数等高线首次接触约束边界时倾向于"击中"某个角,对应部分系数为零。

LASSO 的局限性在于:当预测变量高度相关时,LASSO 倾向于随机选择其中一个而忽略其余;当 p>np > n(变量数超过样本数)时,LASSO 最多只能选出 nn 个变量。

弹性网 (Elastic Net)

弹性网 (Zou 和 Hastie, 2005) 结合 L1L_1L2L_2 惩罚:

P(β)=αβ1+1α2β22P(\beta) = \alpha \|\beta\|_1 + \frac{1-\alpha}{2} \|\beta\|_2^2

其中 α[0,1]\alpha \in [0, 1] 控制两种惩罚的混合比例。弹性网继承了 LASSO 的稀疏性和岭回归处理相关变量的稳定性,在 pnp \gg n 场景下表现尤为出色,能选出超过 nn 个变量。

其他正则化形式

弹性网 之外,SCAD (Smoothly Clipped Absolute Deviation, Fan 和 Li, 2001) 和 MCP (Minimax Concave Penalty, Zhang, 2010) 是两种非凸惩罚函数,旨在同时实现无偏性、稀疏性和连续性(Oracle 性质)。分组 LASSO (Group LASSO, Yuan 和 Lin, 2006) 在惩罚中使用参数的组范数,使整组变量被同时选入或剔除,适用于 分类变量 的虚拟编码组等场景。融合 LASSO (Fused LASSO) 对相邻系数的差异施加 L1L_1 惩罚,适用于有序特征(如时间序列或空间数据)。

贝叶斯解释

正则化具有自然的贝叶斯解释。在 贝叶斯统计 框架下,惩罚函数对应于参数的先验分布:L2L_2 惩罚等价于参数服从 正态分布 先验 βjN(0,τ2)\beta_j \sim N(0, \tau^2),其中 τ21/λ\tau^2 \propto 1/\lambdaL1L_1 惩罚等价于参数服从 拉普拉斯分布(双指数分布)先验 βjLaplace(0,1/λ)\beta_j \sim \text{Laplace}(0, 1/\lambda)。LASSO 产生稀疏解的原因在贝叶斯视角下变得直观:拉普拉斯分布在零处具有尖锐峰值且尾部比正态分布更厚,使得后验分布在零处具有更高的概率质量。正则化参数 λ\lambda 的选取等价于超参数调优,可进一步通过 经验贝叶斯 方法或分层先验处理。

在计量经济学中的应用

正则化方法在当代计量经济学中应用广泛。高维回归情形——例如使用大量控制变量、工具变量或交互项——LASSO 及其变体被用于从大量潜在控制变量中筛选关键变量。Belloni, Chernozhukov 和 Hansen (2014) 提出的 后双选 LASSO (Post-Double-Selection LASSO) 在高维 处理效应 估计中具有重要的理论保证:先通过 LASSO 分别在结果方程和处理方程中筛选控制变量,再对并集变量进行普通最小二乘回归,从而获得处理效应的有效推断。

宏观经济学VAR 模型中,贝叶斯 VAR (BVAR) 通过 明尼苏达先验 (Minnesota Prior) 对远滞后项的系数施加更强的收缩——本质上是一种以随机游走为中心的 L2L_2 正则化,有效解决了无约束 VAR 中参数数量相对于样本量过大导致的预测精度低下的"维数灾难"问题。

资产定价 领域,均值-方差优化 对输入误差极度敏感——估计的协方差矩阵的微小扰动可能导致投资组合权重的剧烈变化。对协方差矩阵施加正则化(如收缩至对角矩阵或结构化目标)可显著提升样本外组合表现,Ledoit 和 Wolf (2004) 的线性收缩估计量是该方向的经典工作。

计算方面

正则化估计量的计算通常涉及带约束或带惩罚的凸优化。对于 L1L_1 类惩罚,目标函数在零点不可微,传统梯度方法失效。坐标下降法 (Coordinate Descent) 是求解 LASSO 和弹性网最常用的算法——每次仅优化一个坐标方向,对 L1L_1 惩罚可使用软阈值算子 (Soft-Thresholding Operator) 获得闭式更新。LARS (Least Angle Regression, Efron 等, 2004) 提供了计算 LASSO 整个正则化路径的高效方法,其计算成本与普通最小二乘相当。对于大规模问题,随机梯度下降ADMM (Alternating Direction Method of Multipliers) 等分布式算法被广泛采用。

局限性与注意事项

正则化虽有强力理论支撑,使用中需注意几点。第一,惩罚参数 λ\lambda 的选择至关重要——过小则正则化效果不足,过大则引入不可忽视的偏差;交叉验证虽广泛使用,但在时间序列等相依数据下其有效性需谨慎评估。第二,正则化估计量是有偏估计量,传统基于正态理论的置信区间和 pp 值可能失效,需采用 Bootstrap、选择性推断 (Selective Inference) 或去偏 LASSO (Debiased LASSO) 等专门技术。第三,L1L_1 正则化虽然产生稀疏解,但在相关变量结构中模型选择可能不稳定——自助法重复抽样可能给出差异极大的变量子集,此时弹性网或稳定性选择 (Stability Selection, Meinshausen 和 Bühlmann, 2010) 是更可靠的选择。