ARTICLE
machine learning
机器学习 (Machine Learning) 机器学习 (Machine Learning, ML) 是人工智能 (Artificial Intelligence, AI) 的一个核心分支,致力于通过数据驱动的方法使计算机系统能够自动学习和改进性能,而无需进行明确的编程指令。其核心思想是让算法从数据 (Data) 中自动发现模式、规律和关系,并利用这些发现
机器学习 (Machine Learning)
机器学习 (Machine Learning, ML) 是人工智能 (Artificial Intelligence, AI) 的一个核心分支,致力于通过数据驱动的方法使计算机系统能够自动学习和改进性能,而无需进行明确的编程指令。其核心思想是让算法从数据 (Data) 中自动发现模式、规律和关系,并利用这些发现对新数据进行预测或决策。
机器学习的理论基础与统计学 (Statistics) 和计算科学 (Computer Science) 紧密交织,同时也与计量经济学 (Econometrics) 有着深刻的联系,尤其在处理因果推断 (Causal Inference) 和高维数据方面日益交叉。
定义与核心思想
Arthur Samuel 在 1959 年将机器学习定义为"赋予计算机无需明确编程即可学习的能力的程序设计领域"。Tom Mitchell 的定义为:如果一个计算机程序在任务 上,以性能度量 为基准,通过经验 不断改进,则称该程序从经验 中学习。
一个典型的机器学习流程包含以下步骤:
- 数据收集与预处理:收集数据集,进行清洗、标准化和特征工程。
- 模型选择:根据问题性质选择模型,如线性回归、决策树、支持向量机或神经网络。
- 训练(学习):最小化损失函数,通常涉及梯度下降等优化算法。
- 评估:使用准确率、精确率、召回率、F1分数和均方误差 (MSE) 等指标。
- 调参:调整超参数以优化性能。
- 部署与应用:将训练好的模型部署到生产环境。
主要类型
1. 监督学习 (Supervised Learning)
监督学习使用带标签的训练数据,目标是学习从 到 的映射 。
- 回归 (Regression):目标变量 为连续值。典型算法包括线性回归、岭回归 (Ridge Regression)、LASSO和随机森林 (Random Forest)。
- 分类 (Classification):目标变量 为离散类别。典型算法包括逻辑回归、K-近邻算法 (KNN)、决策树、支持向量机、朴素贝叶斯和神经网络。
2. 无监督学习 (Unsupervised Learning)
- 聚类 (Clustering):如K-均值聚类 (K-Means)、层次聚类 (Hierarchical Clustering) 和 DBSCAN。
- 降维 (Dimensionality Reduction):如主成分分析 (PCA) 和 t-SNE。
- 密度估计:估计数据的概率分布。
3. 强化学习 (Reinforcement Learning)
智能体 (Agent) 在环境中采取行动以最大化累积奖励 (Reward),通过试错学习策略。典型应用包括博弈论、机器人和自动驾驶。
模型评估与偏差-方差权衡
评估模型性能的核心概念是偏差-方差权衡 (Bias-Variance Tradeoff)。模型的泛化误差可分解为:
高偏差意味着欠拟合;高方差意味着过拟合。常用技术包括交叉验证和正则化(L1正则化形成 Lasso,L2正则化形成 Ridge)。
与计量经济学的关系
机器学习与计量经济学在方法论上相互影响。
共同点:两者都使用线性回归、正则化技术等核心工具,都关心拟合优度和预测误差。
主要差异:
- 主要目标:计量经济学侧重因果推断与参数解释;机器学习侧重预测精度与模式识别。
- 模型形式:计量经济学多为参数化、可解释模型;机器学习可高度非线性、常为黑箱。
- 关注重点:计量经济学强调一致性、无偏性与假设检验;机器学习强调泛化性能、偏差-方差权衡与交叉验证。
- 数据特征:计量经济学通常为小样本、低频数据;机器学习常面对大样本、高维数据。
近年来,双重机器学习 (Double Machine Learning) 进行因果推断,以及使用 Lasso 进行变量选择和高维回归,成为两者融合的重要方向。
在经济学与金融学中的应用
- 信用评分 (Credit Scoring):评估借款人信用风险。
- 量化交易 (Quantitative Trading):构建交易策略。
- 价格预测 (Price Prediction):预测资产价格或市场需求。
- 文本分析 (Text Analysis):分析中央银行会议纪要、新闻或财务报表。
- 异常检测 (Anomaly Detection):检测欺诈交易。
- 个性化推荐 (Recommendation Systems):根据用户行为推荐商品或内容。
局限性与挑战
- 可解释性:深度神经网络等模型常被视为黑箱。
- 数据需求:深度学习方法通常需要海量数据。
- 过拟合:数据量不足或模型过于复杂时缺乏泛化能力。
- 偏见与公平性:训练数据中的社会偏见可能被模型放大。
- 因果性 vs 相关性:机器学习擅长识别相关性,但无法自动区分因果关系与虚假相关。
参考文献
- Hastie, T., Tibshirani, R., \& Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.
- James, G., Witten, D., Hastie, T., \& Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. Springer.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Varian, H. R. (2014). Big data: New tricks for econometrics. Journal of Economic Perspectives, 28(2), 3--28.
- Athey, S., \& Imbens, G. W. (2019). Machine learning methods that economists should know about. Annual Review of Economics, 11, 685--725.