ARTICLE
机器学习与预测
机器学习与预测 (Machine Learning and Prediction) 机器学习 (Machine Learning) 是统计学与计算机科学的交叉领域,其核心任务是从数据中自动学习规律与模式,并利用所学模型对未来观测进行预测 (Prediction)。与传统的假设检验驱动的统计推断不同,机器学习以预测精度为首要目标,强调算法的泛化能力——即模型在
机器学习与预测 (Machine Learning and Prediction)
机器学习 (Machine Learning) 是统计学与计算机科学的交叉领域,其核心任务是从数据中自动学习规律与模式,并利用所学模型对未来观测进行预测 (Prediction)。与传统的假设检验驱动的统计推断不同,机器学习以预测精度为首要目标,强调算法的泛化能力——即模型在未见于训练过程的测试数据上的表现。
预测问题的形式化
给定训练数据 ,其中 为特征向量, 为响应变量,机器学习的目标是学习一个函数 ,使得在新观测 上的预测 尽可能接近真实值 。预测误差可分解为三个来源:
- 不可约误差 (Irreducible Error):数据生成过程固有的随机噪声,任何模型均无法消除。
- 偏差 (Bias):由于模型族对真实函数近似能力不足而产生的系统性误差。高偏差常导致欠拟合。
- 方差 (Variance):由于模型对训练数据微小变化的过度敏感而产生的波动。高方差常导致过拟合。
这三者构成著名的偏差-方差权衡 (Bias-Variance Trade-off)。灵活的模型(如深度神经网络)通常偏差低但方差高;简单模型(如线性回归)则相反。
主要范式
监督学习 (Supervised Learning) 是最常见的预测范式,要求训练数据包含标签 。典型任务包括回归(预测连续值)和分类(预测离散类别)。常用方法涵盖线性回归、Lasso回归、支持向量机、决策树、随机森林、梯度提升 (Gradient Boosting) 及神经网络。
无监督学习 (Unsupervised Learning) 不依赖标签,旨在发现数据的隐含结构,如K-均值聚类、主成分分析等。虽然不直接输出预测值,但降维与聚类结果常作为预测流程的前置步骤。
过拟合控制与模型评估
控制过拟合是预测建模的核心挑战。主要策略包括:
- 正则化:在损失函数中添加惩罚项以约束模型复杂度——L1正则化(Lasso)实现稀疏特征选择,L2正则化(岭回归)实现系数收缩。
- 交叉验证:将数据划分为K折,轮流以K-1折训练、1折验证,用平均验证误差估计泛化性能。
- 早停法 (Early Stopping):在迭代优化中,当验证误差不再下降时终止训练。
模型评估指标因任务而异:回归常用均方误差(MSE)和 ;分类常用准确率、精确率、召回率与F1分数,并通过AUC评价排序性能。
与计量经济学的联系
机器学习与计量经济学共享预测目标,但在侧重上存在分野。计量经济学强调参数 的无偏性、一致性与因果识别,核心关切是 的推断性质;机器学习则直接优化预测误差,对估计量的抽样分布关注较少。近年来两领域加速融合——因果森林 (Causal Forest)、双重去偏机器学习 (Double/Debiased ML) 等方法将ML的预测能力嵌入因果推断框架,广泛应用于政策评估、异质性处理效应估计等经济学前沿议题。