ARTICLE

正则化

正则化 (Regularization) 正则化 (Regularization) 是\%统计学\%、\%机器学习\%和\%计量经济学\%中一组核心技术的总称，主要目的是防止\%模型\%出现\%过拟合\% (Overfitting)，提高模型的泛化能力。其基本思想是在\%目标函数\%（通常是\%损失函数\%）中引入一个惩罚项，对模型复杂度进行约束。当模型过于

浏览 49 更新 2025-11-08

正则化 (Regularization)

正则化 (Regularization) 是\%统计学\%、\%机器学习\%和\%计量经济学\%中一组核心技术的总称，主要目的是防止\%模型\%出现\%过拟合\% (Overfitting)，提高模型的泛化能力。其基本思想是在\%目标函数\%（通常是\%损失函数\%）中引入一个惩罚项，对模型复杂度进行约束。当模型过于复杂时，即使训练误差很低，测试误差也可能很高；正则化通过在复杂度和拟合优度之间取得平衡，有效缓解这一问题。

在训练模型时，目标通常是最小化预测误差。然而，一个参数过多或参数值过大的复杂模型可能"记住"\%训练数据\%中的噪声和偶然特征，而非学习底层规律。这导致模型在训练集上表现完美，在\%测试数据\%上却表现糟糕——这就是过拟合。正则化通过惩罚过大的参数，迫使模型选择更简单、更平滑的参数配置，从而降低过拟合风险。

偏差-方差权衡

正则化的核心作用体现在对\%偏差-方差权衡\% (Bias-Variance Tradeoff) 的调节：

\%偏差\% (Bias)：预测期望与真实值的差距。高偏差意味着模型过于简单，无法捕捉数据中的规律，导致欠拟合。
\%方差\% (Variance)：模型对不同训练集的敏感程度。高方差意味着模型对训练数据中的微小变化反应过度，导致过拟合。

正则化有意增加一点偏差以大幅降低方差，寻找总误差最小的平衡点。偏差和方差之和构成模型的泛化误差，正则化的目标正是最小化这一总和。通过调整正则化强度参数λ，可以在欠拟合（高偏差）与过拟合（高方差）之间灵活调节。

数学形式

在\%线性回归\%中，标准损失函数为\%均方误差\% (MSE)： $L(\beta) = \frac{1}{n} \sum (y_i - x_i^T \beta)^2$ 。正则化修改目标函数为：

\text{Cost}(\theta) = L(\theta) + \lambda P(\theta)

其中 $L(\theta)$ 衡量拟合优度， $P(\theta)$ 为惩罚项， $\lambda$ 是\%超参数\%——通过\%交叉验证\%确定。 $\lambda=0$ 时无正则化， $\lambda \to \infty$ 时参数趋近于零导致\%欠拟合\%。选择合适的λ值是正则化的关键步骤，通常使用网格搜索配合交叉验证来实现。

L2 正则化（岭回归）

L2 正则化（\%岭回归\% Ridge Regression）使用参数平方和（\%L2范数\%的平方）作为惩罚项：

\text{Cost}(\beta) = \sum (y_i - x_i^T \beta)^2 + \lambda \sum \beta_j^2

特点：将所有系数平滑收缩至零附近但通常不为零，不会将任何特征完全剔除；可有效处理\%多重共线性\%，即使特征之间高度相关，岭回归也能稳定地估计系数；几何上等价于将参数约束在一个超球体内。由于惩罚函数是二次的，岭回归存在解析解，计算效率较高。

L1 正则化（Lasso）

L1 正则化（\%Lasso\%: Least Absolute Shrinkage and Selection Operator）使用参数绝对值之和（\%L1范数\%）：

\text{Cost}(\beta) = \sum (y_i - x_i^T \beta)^2 + \lambda \sum |\beta_j|

特点：能产生稀疏解，将不重要特征的系数精确压缩至零，自动实现\%特征选择\%；模型更简单、更易解释；几何上等价于将参数约束在一个超菱形内，最优解易落在坐标轴上。当特征数量远大于样本量时，Lasso最多只能选择与样本量相当数量的特征。Lasso的优化需要通过坐标下降法等迭代算法求解。

L1 与 L2 对比

特性	L2（岭回归）	L1（Lasso）
惩罚项	$\sum \beta_j^2$	$\sum \|\beta_j\|$
系数效果	收缩至近零	可精确压缩至零
特征选择	无	内置
解的性质	非稀疏	稀疏
计算	有解析解	需迭代优化
鲁棒性	对异常值较敏感	相对鲁棒

弹性网络

弹性网络 (Elastic Net) 同时使用 L1 和 L2 惩罚，兼具特征选择和处理共线性的能力，在特征数多于样本数时表现尤佳。其目标函数为：

\text{Cost}(\beta) = \sum (y_i - x_i^T \beta)^2 + \lambda_1 \sum |\beta_j| + \lambda_2 \sum \beta_j^2

弹性网络特别适用于特征高度相关且数量众多的情况，它克服了Lasso在特征数超过样本量时的局限，同时保留了岭回归对相关特征的稳定性。

其他正则化方法

除上述方法外，还有多种正则化技术：Dropout 在\%深度学习\%中随机丢弃神经元以防止共适应；早停法 (Early Stopping) 在验证误差不再下降时停止训练；数据扩增 (Data Augmentation) 通过生成合成训练样本增加数据多样性；批归一化 (Batch Normalization) 在训练过程中归一化层输入，兼具正则化效果。

总结

正则化是现代统计建模与机器学习中不可或缺的工具。它通过在优化过程中引入对复杂度的惩罚，有效解决过拟合问题。L2 正则化通过平滑收缩系数提高模型稳定性，尤其适用于存在多重共线性的场景；L1 正则化通过产生稀疏解实现自动特征选择，适合需要高解释性的应用。弹性网络则综合两者优势，在特征数远超样本数或特征高度相关时表现更佳。理解并恰当运用正则化技术，是构建稳健、可泛化预测模型的关键一步。掌握不同正则化方法的特性与适用场景，能够帮助研究者和工程师在实践中做出更优的建模决策。

正则化在实践中的注意事项

在实际应用中，使用正则化需要注意以下几点。首先，正则化前应对特征进行标准化处理，因为正则化惩罚项对特征的尺度敏感——如果某个特征的取值范围比另一个大得多，其系数会自然地被惩罚更多。其次，λ值的选择至关重要，通常通过交叉验证在候选值中选取使验证误差最小的λ。第三，在时间序列数据中使用正则化时，应采用时间序列交叉验证以避免未来信息泄漏。最后，正则化并非万能，当模型严重欠拟合时，应首先考虑增加模型复杂度或引入更多特征，而非依赖正则化。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。