ARTICLE

underfitting

Underfitting(欠拟合) 欠拟合 (Underfitting) 是统计学习理论与机器学习中的核心概念,指模型在训练数据上未能充分捕捉输入变量与目标变量之间的真实关系,导致训练误差和测试误差均较高。与过拟合相对,欠拟合反映的是模型容量 (Model Capacity) 不足或优化不充分的问题,是偏差-方差权衡中高偏差一端的典型表现。 形式化定义 在监

浏览 4 更新 2025-10-26

Underfitting(欠拟合)

欠拟合 (Underfitting) 是统计学习理论机器学习中的核心概念,指模型在训练数据上未能充分捕捉输入变量与目标变量之间的真实关系,导致训练误差和测试误差均较高。与过拟合相对,欠拟合反映的是模型容量 (Model Capacity) 不足或优化不充分的问题,是偏差-方差权衡中高偏差一端的典型表现。

形式化定义

监督学习框架下,给定训练集 D={(xi,yi)}i=1n\mathcal{D} = \{(x_i, y_i)\}_{i=1}^{n},其中 yi=f(xi)+εiy_i = f(x_i) + \varepsilon_iff 为真实函数,εi\varepsilon_i 为不可约误差。模型 f^\hat{f} 在点 x0x_0 处的期望预测误差可按均方误差分解为:

ED,ε[(y0f^(x0))2]=\mathbb{E}_{\mathcal{D}, \varepsilon}\left[(y_0 - \hat{f}(x_0))^2\right] =

\underbrace{\left(E\mathbb{E}[f^\hat{f}(x0x_0)] - f(x0x_0)\right)^2}\_{Bias2\text{Bias}^2(f^\hat{f}(x0x_0))} + \underbrace{E\mathbb{E}\left[(f^\hat{f}(x0x_0) - E\mathbb{E}[f^\hat{f}(x0x_0)])^2\right]}\_{Variance\text{Variance}(f^\hat{f}(x0x_0))} + \underbrace{σε2\sigma^2_{\varepsilon}}\_{Irreducible Error\text{Irreducible Error}}

欠拟合对应偏差项 Bias2\operatorname{Bias}^2 主导的情形:模型在训练集上的表现(训练误差)本身已令人不满意,原因是假设空间 H\mathcal{H} 过于狭窄,无法以足够的精度逼近真实函数 ff

典型成因

欠拟合的产生可归结为以下几类原因:

  1. 模型容量不足:所选模型族的表达能力不足以拟合数据的内在结构。例如,用线性回归拟合具有强非线性关系的数据,或用低阶多项式拟合高阶周期函数。
  2. 特征工程缺陷:输入特征未能充分编码对预测有用的信息。例如,在手写数字识别中仅使用像素均值而非空间结构;在经济预测中遗漏关键的交互项滞后项
  3. 过度正则化:当正则化系数 λ\lambda 设置过大时,L1正则化LASSO)或L2正则化岭回归)将参数过度压缩至零附近,使模型退化为过于简单甚至常数的形式。
  4. 优化不充分:在梯度下降类算法中,学习率过低、迭代轮次不足或陷入局部最优,导致模型参数尚未收敛至训练损失的有效极小值。
  5. 数据预处理不当:未经标准化的原始特征可能导致优化困难;关键特征被错误删除或离散化信息损失过大。

诊断方法

欠拟合的诊断依赖训练误差与验证误差的联合分析:

  • 高训练误差 + 高验证误差:最直接的欠拟合信号。若模型在训练集上都无法达到可接受的拟合水平,说明假设空间或优化过程存在根本缺陷。
  • 学习曲线分析:当训练和验证损失曲线均在高位趋于平坦,且两者之间的差距较小,表明模型因容量不足而无法提升。这与过拟合形成鲜明对比——后者的训练损失持续下降而验证损失在低位回升。
  • 残差分析:若残差呈现系统性模式(如趋势性、周期性),而非随机散布,则模型遗漏了数据中的结构性信息。

在经济与金融应用中,欠拟合的后果尤其严重:一个未能捕捉关键经济机制的简约模型(如仅含 GDP 增长率的通胀预测)将产生系统性偏差,导致政策模拟与投资决策的失真。DSGE模型与VAR模型的复杂程度选择,本质上正是对欠拟合与过拟合之间最优平衡点的探索。

应对策略

  1. 增加模型复杂度:将线性模型升级为多项式回归广义加性模型神经网络;在时间序列中适当提高ARIMAGARCH模型的阶数。
  1. 扩充特征空间:引入交互项、高阶项、滞后变量或通过核方法隐式映射到高维空间;利用主成分分析的互补视角审视信息损失。
  1. 降低正则化强度:减小 λ\lambda 参数,或采用弹性网等混合正则化策略,在偏差与方差之间更灵活地分配权重。
  1. 优化训练过程:调整学习率调度策略(如Adam的自适应机制)、增加训练轮次、采用更好的参数初始化方法(如 Xavier/He 初始化)以改善收敛质量。
  1. 模型集成与堆叠:通过Bootstrap聚合(Bagging)或Boosting等集成技术,以弱学习器的线性组合逼近强学习器,在不牺牲推广性能的前提下降低偏差。

与过拟合的对比

  • 欠拟合表现为训练误差和测试误差双高,解在偏差-方差分解谱线的左端,对应模型"无法充分学习"的状态。
  • 过拟合表现为训练误差极低而测试误差显著偏高,解位于谱线右端,对应模型"将噪声当作信号学习"的状态。

两者共同定义了偏差-方差权衡的核心张力:模型选择的本质是在欠拟合与过拟合之间寻找泛化误差最小的中间点。这一权衡在交叉验证AICBIC等信息准则中得到了数学化的表达,并在结构风险最小化原则下指导着从实证经济学到深度学习的模型构建实践。