ARTICLE

梯度提升树

梯度提升树 (Gradient Boosted Trees) 梯度提升树 (Gradient Boosted Trees)，又称梯度提升机 (Gradient Boosting Machine, GBM)，是一种基于集成学习（Ensemble Learning）思想的监督学习算法。它通过将多个弱学习器（通常是决策树）以迭代方式组合，逐步降低整体模型的偏差，从

浏览 3 更新 2025-10-27

梯度提升树 (Gradient Boosted Trees)

梯度提升树 (Gradient Boosted Trees)，又称梯度提升机 (Gradient Boosting Machine, GBM)，是一种基于集成学习（Ensemble Learning）思想的监督学习算法。它通过将多个弱学习器（通常是决策树）以迭代方式组合，逐步降低整体模型的偏差，从而构建出一个高精度的强学习器。梯度提升树广泛应用于回归分析、分类、排名和预测等任务，在机器学习竞赛和工业界实践中表现尤为突出。

基本思想

梯度提升树的核心思想源于统计学习理论中的加法模型 (Additive Model)与前向分步算法 (Forward Stagewise Algorithm)。设训练数据集为 $\{ (x_i, y_i) \}_{i=1}^n$ ，目标是寻找一个函数 $F(x)$ 使得损失函数 $L(y, F(x))$ 的期望最小化。

与随机森林（Random Forest）等并行集成方法不同，梯度提升采用序贯 (Sequential)的训练方式。在第 $m$ 步，当前模型为 $F_{m-1}(x)$ ，算法在现有模型的基础上添加一棵新的决策树 $h_m(x)$ ，即：

F_m(x) = F_{m-1}(x) + \eta \cdot h_m(x),

其中 $\eta$ 为学习率（Learning Rate），用于控制每棵树对最终模型的贡献程度。

算法步骤

梯度提升树的训练过程可概括为以下步骤：

初始化模型：选择一个常数作为初始预测值，通常是损失函数最小化的常数值： \[ F_0(x) = \arg\min_\gamma \sum_{i=1}^n L(y_i, \gamma). \]
迭代训练：对于 $m = 1, 2, \dots, M$ ： \begin{enumerate}
计算每个样本的负梯度（即伪残差, Pseudo-Residual）： \[ r_{im} = -\left[ \frac{\partial L(y_i, F(x_i))}{\partial F(x_i)} \right]_{F(x)=F_{m-1}(x)}. \]
用决策树拟合伪残差 $\{ (x_i, r_{im}) \}$ ，得到一棵包含 $J_m$ 个叶子节点的回归树。
对每个叶子节点 $j$ ，计算最优的步长（叶子权重）： \[ \gamma_{jm} = \arg\min_\gamma \sum_{x_i \in R_{jm}} L(y_i, F_{m-1}(x_i) + \gamma), \] 其中 $R_{jm}$ 为第 $m$ 棵树第 $j$ 个叶子节点对应的样本区域。
更新模型： \[ F_m(x) = F_{m-1}(x) + \eta \sum_{j=1}^{J_m} \gamma_{jm} \mathbf{1}(x \in R_{jm}). \]

\item 输出：最终模型 $F_M(x)$ 。 \end{enumerate}

关键超参数

梯度提升树的性能高度依赖于以下超参数的调优：

学习率 (Learning Rate, $\eta$ )：控制每棵树的贡献大小。较小的学习率（如 0.01--0.1）通常需要更多树来达到最佳性能，但有助于防止过拟合。
树的数量 (Number of Trees, $M$ )：集成中弱学习器的总数。过多的树可能导致过拟合，过少则欠拟合。
树的最大深度 (Max Depth)：控制单棵树的复杂度。通常限制在 3--8 层，以防止过拟合。
最小叶子节点样本数 (Min Samples in Leaf)：限制叶子节点包含的最小样本数量，起正则化作用。
子采样比例 (Subsampling Ratio)：在每轮迭代中随机抽取一定比例的训练样本，引入随机性以增强泛化能力。
列采样 (Column Sampling)：类似随机森林的特征子抽样策略，进一步降低过拟合风险。

损失函数

梯度提升树的灵活性体现在其支持多种损失函数，针对不同任务可选择不同的目标函数：

回归任务：常用均方误差（MSE, $L(y, F) = (y - F)^2$ ）或平均绝对误差（MAE, $L(y,F) = |y - F|$ ）。
二分类任务：常用对数损失（Log Loss），即交叉熵损失 $L(y, p) = -[y \log(p) + (1-y)\log(1-p)]$ 。
多分类任务：使用 softmax 交叉熵损失函数。
排序任务：使用如 LambdaRank 等排序专用的损失函数。

常见变体与实现

梯度提升树自提出以来已发展出多个高效变体和实现框架：

XGBoost (eXtreme Gradient Boosting)：由 Tianqi Chen 开发，引入正则化目标函数和二阶导数信息（牛顿法近似），支持列块并行和缓存感知访问，是 Kaggle 竞赛中的经典利器。其目标函数形式为： \[ \mathcal{L}^{(m)} = \sum_{i=1}^n L(y_i, F_{m-1}(x_i) + h_m(x_i)) + \Omega(h_m), \] 其中 $\Omega(h) = \gamma T + \frac{1}{2}\lambda \sum_{j=1}^T w_j^2$ ， $T$ 为叶子数， $w_j$ 为叶子权重。
LightGBM：由微软开发，采用基于梯度的单边采样（GOSS）和互斥特征捆绑（EFB），支持叶子节点方式的生长策略，在大规模数据上训练速度显著提升。
CatBoost：由 Yandex 开发，专门针对类别型特征进行优化，使用有序提升（Ordered Boosting）方式减少预测偏移，无需手动编码类别变量。
HistGradientBoosting：Scikit-learn 中的高效实现，基于直方图分桶加速训练。

优缺点分析

优点：

预测精度高，在众多结构化数据任务中优于神经网络和支持向量机等算法。
能够自动处理非线性关系和特征交互。
对缺失值具有一定的鲁棒性，部分实现可自动处理缺失值。
提供特征重要性（Feature Importance）评估，便于模型解释。

缺点：

对异常值敏感，异常值会显著影响模型性能。
超参数较多，调优过程较为复杂。
序贯训练方式难以并行化，虽然在树级别可借助特征并行加速。
在高维稀疏数据（如文本分类）上通常不如线性模型或神经网络。
易过拟合，需要谨慎控制树的数量和深度。

与随机森林的对比

梯度提升树与随机森林均属于基于决策树的集成方法，但二者的核心策略存在显著差异。随机森林通过Bootstrap采样和随机特征选择构建多棵独立树，取平均值作为最终预测，主要降低方差（Variance）。而梯度提升树则通过逐步拟合残差来降低偏差（Bias）。在实际应用中，梯度提升树通常在预测精度上优于随机森林，但对超参数更敏感，训练时间也更长。

应用场景

梯度提升树在多个领域有着广泛的应用：在金融风控领域，广泛用于信用评分（Credit Scoring）和违约预测；在计算广告中，用于点击率预估（CTR Prediction）；在推荐系统中，作为排序模型（如 LambdaMART）的核心算法；在生物信息学中，用于基因表达数据的分类和药物发现；在气象学中，用于天气预测和气候建模。此外，梯度提升树也是众多 Kaggle 竞赛优胜方案的核心组件。

数学原理：从梯度下降到函数空间优化

梯度提升树的一个重要理论洞见在于，它将传统的梯度下降法（Gradient Descent）从参数空间推广到了函数空间。在参数空间中，梯度下降迭代更新参数 $\theta$ 以最小化损失函数；而在梯度提升中，每一步的更新不再是参数向量的增量，而是一个函数（决策树）本身。每棵新树拟合的是当前模型在训练数据上损失函数的负梯度方向，因此在函数空间中执行了梯度下降。这一视角揭示了梯度提升与最优化理论的深层联系，也为后续算法改进（如 XGBoost 的二阶近似）奠定了理论基础。

参考文献

Friedman, J. H. (2001). Greedy function approximation: a gradient boosting machine. Annals of Statistics, 29(5), 1189--1232.
Friedman, J. H. (2002). Stochastic gradient boosting. Computational Statistics \& Data Analysis, 38(4), 367--378.
Chen, T., \& Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD, 785--794.
Ke, G., et al. (2017). LightGBM: A highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems, 30, 3146--3154.
Prokhorenkova, L., et al. (2018). CatBoost: unbiased boosting with categorical features. Advances in Neural Information Processing Systems, 31.

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。