ARTICLE
regularization
正则化 (Regularization) 正则化 (Regularization) 是统计学、计量经济学和机器学习中用于防止模型 过拟合 (Overfitting) 的核心技术族。其基本思想是在模型拟合目标(如最小化残差平方和或最大化似然函数)之外,对模型参数的"复杂度"施加惩罚,从而在 偏差-方差权衡 (Bias-Variance Tradeoff) 中向
正则化 (Regularization)
正则化 (Regularization) 是统计学、计量经济学和机器学习中用于防止模型 过拟合 (Overfitting) 的核心技术族。其基本思想是在模型拟合目标(如最小化残差平方和或最大化似然函数)之外,对模型参数的"复杂度"施加惩罚,从而在 偏差-方差权衡 (Bias-Variance Tradeoff) 中向更高偏差、更低方差的方向调节,提升模型在未见数据上的泛化性能。
正则化的理论根基可追溯至 吉洪诺夫正则化 (Tikhonov Regularization, 1943),用于求解不适定反问题。在统计学习中,正则化从 James-Stein估计量 揭示的"收缩估计可优于无偏估计"这一反直觉事实中获得重要推动——Stein (1956) 证明在高维正态均值估计中,向原点收缩的估计量在均方误差意义上一致优于样本均值(最大似然估计)。这一发现奠定了现代正则化方法的理论基础:通过有偏收缩换取更低的整体风险。
惩罚项与正则化路径
设模型参数向量为 ,记损失函数(如负对数似然或残差平方和)为 。正则化估计量的一般形式为:
其中 为惩罚函数 (Penalty Function), 为正则化参数 (Regularization Parameter),控制惩罚强度。当 时退化为无正则化的经验风险最小化;当 时所有参数被压缩至零。 的选取通常通过 交叉验证 (Cross-Validation)、AIC、BIC 或广义交叉验证 (GCV) 等数据驱动方法。
随 从零增大,估计量 描绘出一条从无约束估计到零向量的连续轨迹,称为 正则化路径 (Regularization Path)。该路径的几何形状由惩罚函数 的形式决定,不同的惩罚函数导致截然不同的收缩行为和变量选择特性。
主要正则化形式
正则化(岭回归)
正则化使用参数平方和作为惩罚:。由此产生的估计量称为 岭回归 (Ridge Regression, Hoerl 和 Kennard, 1970)。在普通最小二乘框架下,岭估计具有封闭解:
其中添加的 项使原本可能奇异的 矩阵变得可逆,因此岭回归天然处理 多重共线性 问题。岭回归将所有系数向零均匀收缩,但不产生稀疏解——即使 很大,系数也仅趋近于零而不精确为零。
正则化 (LASSO)
正则化使用参数绝对值之和作为惩罚:。LASSO (Least Absolute Shrinkage and Selection Operator, Tibshirani, 1996) 的核心优势在于其产生稀疏解——当 足够大时,部分系数被精确估计为零,从而同时完成参数估计和 变量选择。这一性质源自 球的几何形状:在参数空间中, 约束区域的尖角位于坐标轴上,使得目标函数等高线首次接触约束边界时倾向于"击中"某个角,对应部分系数为零。
LASSO 的局限性在于:当预测变量高度相关时,LASSO 倾向于随机选择其中一个而忽略其余;当 (变量数超过样本数)时,LASSO 最多只能选出 个变量。
弹性网 (Elastic Net)
弹性网 (Zou 和 Hastie, 2005) 结合 和 惩罚:
其中 控制两种惩罚的混合比例。弹性网继承了 LASSO 的稀疏性和岭回归处理相关变量的稳定性,在 场景下表现尤为出色,能选出超过 个变量。
其他正则化形式
弹性网 之外,SCAD (Smoothly Clipped Absolute Deviation, Fan 和 Li, 2001) 和 MCP (Minimax Concave Penalty, Zhang, 2010) 是两种非凸惩罚函数,旨在同时实现无偏性、稀疏性和连续性(Oracle 性质)。分组 LASSO (Group LASSO, Yuan 和 Lin, 2006) 在惩罚中使用参数的组范数,使整组变量被同时选入或剔除,适用于 分类变量 的虚拟编码组等场景。融合 LASSO (Fused LASSO) 对相邻系数的差异施加 惩罚,适用于有序特征(如时间序列或空间数据)。
贝叶斯解释
正则化具有自然的贝叶斯解释。在 贝叶斯统计 框架下,惩罚函数对应于参数的先验分布: 惩罚等价于参数服从 正态分布 先验 ,其中 ; 惩罚等价于参数服从 拉普拉斯分布(双指数分布)先验 。LASSO 产生稀疏解的原因在贝叶斯视角下变得直观:拉普拉斯分布在零处具有尖锐峰值且尾部比正态分布更厚,使得后验分布在零处具有更高的概率质量。正则化参数 的选取等价于超参数调优,可进一步通过 经验贝叶斯 方法或分层先验处理。
在计量经济学中的应用
正则化方法在当代计量经济学中应用广泛。高维回归情形——例如使用大量控制变量、工具变量或交互项——LASSO 及其变体被用于从大量潜在控制变量中筛选关键变量。Belloni, Chernozhukov 和 Hansen (2014) 提出的 后双选 LASSO (Post-Double-Selection LASSO) 在高维 处理效应 估计中具有重要的理论保证:先通过 LASSO 分别在结果方程和处理方程中筛选控制变量,再对并集变量进行普通最小二乘回归,从而获得处理效应的有效推断。
在 宏观经济学 的 VAR 模型中,贝叶斯 VAR (BVAR) 通过 明尼苏达先验 (Minnesota Prior) 对远滞后项的系数施加更强的收缩——本质上是一种以随机游走为中心的 正则化,有效解决了无约束 VAR 中参数数量相对于样本量过大导致的预测精度低下的"维数灾难"问题。
在 资产定价 领域,均值-方差优化 对输入误差极度敏感——估计的协方差矩阵的微小扰动可能导致投资组合权重的剧烈变化。对协方差矩阵施加正则化(如收缩至对角矩阵或结构化目标)可显著提升样本外组合表现,Ledoit 和 Wolf (2004) 的线性收缩估计量是该方向的经典工作。
计算方面
正则化估计量的计算通常涉及带约束或带惩罚的凸优化。对于 类惩罚,目标函数在零点不可微,传统梯度方法失效。坐标下降法 (Coordinate Descent) 是求解 LASSO 和弹性网最常用的算法——每次仅优化一个坐标方向,对 惩罚可使用软阈值算子 (Soft-Thresholding Operator) 获得闭式更新。LARS (Least Angle Regression, Efron 等, 2004) 提供了计算 LASSO 整个正则化路径的高效方法,其计算成本与普通最小二乘相当。对于大规模问题,随机梯度下降 和 ADMM (Alternating Direction Method of Multipliers) 等分布式算法被广泛采用。
局限性与注意事项
正则化虽有强力理论支撑,使用中需注意几点。第一,惩罚参数 的选择至关重要——过小则正则化效果不足,过大则引入不可忽视的偏差;交叉验证虽广泛使用,但在时间序列等相依数据下其有效性需谨慎评估。第二,正则化估计量是有偏估计量,传统基于正态理论的置信区间和 值可能失效,需采用 Bootstrap、选择性推断 (Selective Inference) 或去偏 LASSO (Debiased LASSO) 等专门技术。第三, 正则化虽然产生稀疏解,但在相关变量结构中模型选择可能不稳定——自助法重复抽样可能给出差异极大的变量子集,此时弹性网或稳定性选择 (Stability Selection, Meinshausen 和 Bühlmann, 2010) 是更可靠的选择。