ARTICLE

数据拟合

数据拟合 (Data Fitting) 数据拟合(Data Fitting)是统计学、计量经济学和机器学习中通过构建数学模型来逼近或解释观测数据的过程。其核心任务是在给定的函数族中,依据某种准则选择一组参数,使模型预测值与实际观测值之间的差异达到最小。数据拟合不仅是参数估计的基础工具,也是预测建模、信号处理和科学计算中不可或缺的环节。在经济学中,数据拟合广泛

浏览 0 更新 2025-10-26

数据拟合 (Data Fitting)

数据拟合(Data Fitting)是统计学、计量经济学和机器学习中通过构建数学模型来逼近或解释观测数据的过程。其核心任务是在给定的函数族中,依据某种准则选择一组参数,使模型预测值与实际观测值之间的差异达到最小。数据拟合不仅是参数估计的基础工具,也是预测建模、信号处理和科学计算中不可或缺的环节。在经济学中,数据拟合广泛应用于需求估计、增长核算、时间序列预测和政策效应评估。

最小二乘法与线性拟合

最经典的拟合方法是普通最小二乘法(OLS)。给定观测数据 (xi,yi)(x_i, y_i), i=1,,ni=1, \dots, n,假设线性模型:

yi=β0+β1xi+εiy_i = \beta_0 + \beta_1 x_i + \varepsilon_i

OLS 通过最小化残差平方和(RSS)来估计参数:

minβ0,β1i=1n(yiβ0β1xi)2\min_{\beta_0, \beta_1} \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2

求解一阶条件可得:

β^1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2,β^0=yˉβ^1xˉ\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}, \qquad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

OLS 在高斯-马尔可夫定理假设下是最优线性无偏估计量(BLUE)。其几何意义是将因变量 yy 投影到自变量 xx 张成的列空间上,拟合值 y^=Xβ^\hat{y} = X\hat{\beta} 是观测向量在该空间中的正交投影。

对于非线性关系,可对变量进行变换——如取对数、多项式展开或 Box-Cox 变换——化为线性形式后再以 OLS 拟合。当模型本身为非线性时,需使用非线性最小二乘法(NLS),通过迭代算法(如高斯-牛顿法Levenberg-Marquardt 算法)求解。

拟合优度与模型选择

拟合的核心评价指标是决定系数 R2R^2

R2=1i=1n(yiy^i)2i=1n(yiyˉ)2=1RSSTSSR^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} = 1 - \frac{\text{RSS}}{\text{TSS}}

R2R^2 衡量模型解释的变异在总变异中所占比例,取值 [0,1][0, 1],越接近 1 说明拟合越好。但 R2R^2 随变量数增加而单调递增,为此引入调整决定系数(Adjusted R2R^2),对多余变量施加惩罚:

Rˉ2=1RSS/(nk1)TSS/(n1)\bar{R}^2 = 1 - \frac{\text{RSS}/(n-k-1)}{\text{TSS}/(n-1)}

其他常用准则包括赤池信息准则(AIC)和贝叶斯信息准则(BIC),它们以信息论为基础权衡拟合优度与模型复杂度:

AIC=2k2lnL^,BIC=klnn2lnL^\text{AIC} = 2k - 2\ln\hat{L}, \qquad \text{BIC} = k\ln n - 2\ln\hat{L}

其中 kk 为参数个数,L^\hat{L} 为最大似然值。BIC 对复杂模型的惩罚比 AIC 更严厉,在大样本下倾向于选择更简约的模型。

过拟合与正则化

过拟合(Overfitting)是数据拟合中的关键风险:模型在训练数据上表现极佳(R2R^2 接近 1),但在新数据上预测能力急剧恶化。产生原因包括参数过多、样本量太小或噪声过大。应对策略主要有三种:

  1. 交叉验证:将数据分为训练集和验证集,用训练集拟合,用验证集评估泛化误差。常见的 kk 折交叉验证将数据等分为 kk 份,轮流以其中 k1k-1 份训练、1 份验证。
  2. 正则化:在损失函数中加入关于参数大小的惩罚项,约束模型复杂度。岭回归(Ridge)使用 L2L_2 惩罚 λβj2\lambda \sum \beta_j^2LASSO 使用 L1L_1 惩罚 λβj\lambda \sum |\beta_j|。LASSO 具有变量选择功能,可将不重要的系数压缩至零;弹性网(Elastic Net)则结合两者。
  3. 信息准则:如前所述,AIC 和 BIC 在拟合度与复杂度之间进行显式折中,指导模型选择。

在计量经济学中的应用

在计量经济学中,数据拟合与因果推断之间存在张力。纯粹以 R2R^2 最大化为目标的拟合可能导致遗漏变量偏误——若遗漏的变量与包含的解释变量相关,OLS 估计量将失去无偏性和一致性。因此,计量建模强调理论驱动:变量的纳入应基于经济理论和对混淆因素的分析,而非纯粹的统计拟合。

此外,非参数回归(如核回归、局部线性回归和样条平滑)为数据拟合提供了更灵活的框架——不预设函数形式,让数据"自己说话"。这类方法在探索性数据分析和政策断点回归中尤为重要,但代价是更大的方差和更低的解释性。

时间序列分析中,ARIMA 模型的阶数选择(通过 ACF、PACF 图形或信息准则确定 p,d,qp, d, q)本质上是数据拟合问题;GARCH 族模型对金融波动率的拟合同样基于最大似然估计下的参数优化。现代机器学习方法(如随机森林梯度提升神经网络)将数据拟合推向更灵活的非参数极值,其强大的拟合能力在经济预测和大数据政策分析中日益受到重视,但面临可解释性与因果识别的新挑战。

最大似然法与广义线性模型

除了最小二乘法,最大似然估计(MLE)是另一条重要的拟合思路。MLE 不直接最小化残差,而是寻找使观测数据出现概率最大的参数值。对于独立同分布样本,似然函数为:

L(θ;y1,,yn)=i=1nf(yiθ)\mathcal{L}(\theta; y_1, \dots, y_n) = \prod_{i=1}^{n} f(y_i \mid \theta)

取对数后最大化:

θ^MLE=argmaxθi=1nlnf(yiθ)\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} \sum_{i=1}^{n} \ln f(y_i \mid \theta)

当误差服从正态分布时,MLE 与 OLS 等价;但在更一般的设定中(如LogitProbit 二值选择模型,或泊松回归计数模型),MLE 是不可替代的标准工具。这些模型统称为广义线性模型(GLM),通过连接函数将线性预测变量 η=Xβ\eta = X\beta 与响应变量的分布族(伯努利、泊松、伽马等)桥接起来:

g(E[yi])=ηi=xiβg(\mathbb{E}[y_i]) = \eta_i = x_i'\beta

其中 g()g(\cdot) 为连接函数——Logit 模型使用对数几率函数 g(p)=ln(p/(1p))g(p) = \ln(p/(1-p)),泊松回归使用对数函数 g(λ)=lnλg(\lambda) = \ln\lambda。GLM 的参数拟合通常通过迭代重加权最小二乘法(IRLS)实现,该算法以 OLS 为基础迭代,在每次迭代中按当前拟合值加权,从而在非正态分布族下获得一致的参数估计。

拟合中的数值方法与稳健性

当模型规模较大或目标函数高度非线性时,解析解不再可得,需借助数值优化。主流方法包括梯度下降及其变体(随机梯度下降 SGD、Adam)和拟牛顿法(BFGS、L-BFGS)。在经济学中,结构估计(Structural Estimation)常涉及求解复杂的动态规划问题,参数空间维度高、目标函数非凸,对数值拟合算法提出了较高要求。

数据中经常存在异常值(Outlier),OLS 因使用平方损失而对异常值极为敏感——单个极端点即可严重扭曲拟合线。为此,稳健回归方法提供了替代方案:最小绝对离差回归(LAD)最小化残差绝对值之和 yiy^i\sum |y_i - \hat{y}_i|Huber 损失在残差较小时使用平方损失、较大时使用线性损失,兼顾了 OLS 的效率和 LAD 的稳健性;M 估计则通过迭代加权进一步泛化了这一思路。实践中,诊断拟合质量应始终配合残差图、QQ 图和Cook 距离等工具,以识别异常点和有影响的观测。