ARTICLE
欠拟合 (Underfitting)
欠拟合 (Underfitting) 欠拟合(Underfitting)指统计模型或机器学习模型过于简单,无法充分捕捉数据中的潜在结构与规律,导致在训练数据和未见数据上均表现不佳的现象。与过拟合(Overfitting)相对,欠拟合的核心特征是高偏差(High Bias)——模型对真实关系的系统性偏离过大。在计量经济学和经济预测中,欠拟合意味着模型遗漏了关键
欠拟合 (Underfitting)
欠拟合(Underfitting)指统计模型或机器学习模型过于简单,无法充分捕捉数据中的潜在结构与规律,导致在训练数据和未见数据上均表现不佳的现象。与过拟合(Overfitting)相对,欠拟合的核心特征是高偏差(High Bias)——模型对真实关系的系统性偏离过大。在计量经济学和经济预测中,欠拟合意味着模型遗漏了关键解释变量、采用了错误的函数形式或施加了过度约束,从而产生有偏且不一致的估计。
偏差-方差权衡中的欠拟合
欠拟合位于偏差-方差权衡(Bias-Variance Tradeoff)的一个极端。模型复杂度提高→偏差↓但方差↑;复杂度降低→方差↓但偏差↑。欠拟合对应低复杂度、高偏差区域:模型对真实数据生成过程的近似能力不足,即便增大样本量也无法消除系统性误差。
在经济学建模中,数据生成过程为 ,其中 为未知真实函数。欠拟合源于估计函数 过于粗糙:线性回归强行拟合非线性关系,或单变量模型忽略关键协变量。结果是残差大且呈现系统性模式——残差图中可见明显的倒U形或周期波动,表明模型未能提取数据中的结构性信息。
经济学中的典型成因
遗漏变量偏差(Omitted Variable Bias, OVB)是计量经济学中欠拟合的主要表现。若真实模型为 ,但估计时遗漏了与 相关的 ,则 有偏且不一致。例如:估计教育回报率时遗漏能力变量→OLS估计上偏。
错误函数形式同样导致欠拟合:当工资-经验关系呈倒U形(明瑟方程的二次项),仅用线性项将系统性低估中年段工资并高估两端的边际效应。过度聚合(如使用国家平均数据而忽略地区异质性)也可能造成欠拟合——辛普森悖论即为典型。
诊断方法
欠拟合的诊断信息明确:训练误差(如MSE、)与测试误差均较高且接近。在经济学应用中:调整 远低于领域预期、残差图出现倒U形或波浪形系统模式(违反零条件均值假设)、F检验不显著但关键变量理论预测应显著。交叉验证中,训练与验证误差均高且差距小→欠拟合而非过拟合。
补救与经济学实践
主要方向:增加模型灵活性。引入多项式项或交互项(如明瑟方程中加入经验的二次项);纳入理论预测的关键控制变量;使用非参数或半参数方法(如核回归、局部线性回归)放宽线性约束;在机器学习语境下,减小正则化强度(如降低岭回归的或LASSO的惩罚系数)、增加决策树深度或使用更复杂的模型族。
需注意:经济学建模强调理论驱动而非纯粹数据驱动。克服欠拟合应基于经济理论识别遗漏变量与合理函数形式,而非盲目增加变量追求拟合优度——后者容易滑向过拟合与数据挖掘偏差。理想策略是从简约模型出发,依据理论与诊断逐步拓展至充分灵活但不过度复杂之规格。