ARTICLE

机器学习与预测

机器学习与预测 (Machine Learning and Prediction) 机器学习 (Machine Learning) 是统计学与计算机科学的交叉领域,其核心任务是从数据中自动学习规律与模式,并利用所学模型对未来观测进行预测 (Prediction)。与传统的假设检验驱动的统计推断不同,机器学习以预测精度为首要目标,强调算法的泛化能力——即模型在

浏览 6 更新 2025-11-08

机器学习与预测 (Machine Learning and Prediction)

机器学习 (Machine Learning) 是统计学与计算机科学的交叉领域,其核心任务是从数据中自动学习规律与模式,并利用所学模型对未来观测进行预测 (Prediction)。与传统的假设检验驱动的统计推断不同,机器学习以预测精度为首要目标,强调算法的泛化能力——即模型在未见于训练过程的测试数据上的表现。

预测问题的形式化

给定训练数据 D={(xi,yi)}i=1n\mathcal{D} = \{(x_i, y_i)\}_{i=1}^n,其中 xiXx_i \in \mathcal{X} 为特征向量,yiYy_i \in \mathcal{Y} 为响应变量,机器学习的目标是学习一个函数 f^:XY\hat{f}: \mathcal{X} \to \mathcal{Y},使得在新观测 x0x_0 上的预测 f^(x0)\hat{f}(x_0) 尽可能接近真实值 y0y_0。预测误差可分解为三个来源:

  1. 不可约误差 (Irreducible Error):数据生成过程固有的随机噪声,任何模型均无法消除。
  2. 偏差 (Bias):由于模型族对真实函数近似能力不足而产生的系统性误差。高偏差常导致欠拟合
  3. 方差 (Variance):由于模型对训练数据微小变化的过度敏感而产生的波动。高方差常导致过拟合

这三者构成著名的偏差-方差权衡 (Bias-Variance Trade-off)。灵活的模型(如深度神经网络)通常偏差低但方差高;简单模型(如线性回归)则相反。

主要范式

监督学习 (Supervised Learning) 是最常见的预测范式,要求训练数据包含标签 yiy_i。典型任务包括回归(预测连续值)和分类(预测离散类别)。常用方法涵盖线性回归Lasso回归支持向量机决策树随机森林梯度提升 (Gradient Boosting) 及神经网络

无监督学习 (Unsupervised Learning) 不依赖标签,旨在发现数据的隐含结构,如K-均值聚类主成分分析等。虽然不直接输出预测值,但降维与聚类结果常作为预测流程的前置步骤。

过拟合控制与模型评估

控制过拟合是预测建模的核心挑战。主要策略包括:

  • 正则化:在损失函数中添加惩罚项以约束模型复杂度——L1正则化(Lasso)实现稀疏特征选择,L2正则化岭回归)实现系数收缩。
  • 交叉验证:将数据划分为K折,轮流以K-1折训练、1折验证,用平均验证误差估计泛化性能。
  • 早停法 (Early Stopping):在迭代优化中,当验证误差不再下降时终止训练。

模型评估指标因任务而异:回归常用均方误差(MSE)和 R2R^2;分类常用准确率精确率召回率F1分数,并通过AUC评价排序性能。

与计量经济学的联系

机器学习与计量经济学共享预测目标,但在侧重上存在分野。计量经济学强调参数 β\beta无偏性一致性与因果识别,核心关切是 β^\hat{\beta} 的推断性质;机器学习则直接优化预测误差,对估计量的抽样分布关注较少。近年来两领域加速融合——因果森林 (Causal Forest)、双重去偏机器学习 (Double/Debiased ML) 等方法将ML的预测能力嵌入因果推断框架,广泛应用于政策评估异质性处理效应估计等经济学前沿议题。