ARTICLE

决策树

决策树 (Decision Tree) 决策树 (Decision Tree) 是一种基本的监督学习算法,广泛应用于分类与回归任务。它以树状结构表示决策过程:每个内部节点对应一个特征上的测试条件,每个分支代表该测试的一个可能输出,每个叶节点则给出最终的预测类别或数值。决策树的优势在于模型可解释性强、对数据预处理要求低、能够自动捕捉特征间的非线性关系与交互效应

浏览 3 更新 2025-10-29

决策树 (Decision Tree)

决策树 (Decision Tree) 是一种基本的监督学习算法,广泛应用于分类回归任务。它以树状结构表示决策过程:每个内部节点对应一个特征上的测试条件,每个分支代表该测试的一个可能输出,每个叶节点则给出最终的预测类别或数值。决策树的优势在于模型可解释性强、对数据预处理要求低、能够自动捕捉特征间的非线性关系与交互效应,因此在经济学、金融学医学市场营销等领域有大量应用。

基本结构与递归划分

决策树的构建基于递归二分划分(Recursive Binary Splitting)策略。给定训练数据集,算法从根节点开始,在每一步选择当前最优的特征及其切分点,将数据划分为两个子集,然后在每个子集上递归重复这一过程,直至满足停止条件。这一过程的数学本质是在特征空间中构造一组平行于坐标轴的超矩形,每个矩形对应一个叶节点区域 Rm R_m

对于回归问题,预测函数可写作:

f(x)=m=1Mcm1{xRm}f(x) = \sum_{m=1}^{M} c_m \cdot \mathbf{1}\{x \in R_m\}

其中 M M 为叶节点总数,Rm R_m 为第 m m 个叶节点对应的特征空间区域,cm c_m 为该区域内目标变量的均值估计,1{} \mathbf{1}\{\cdot\} 为示性函数。若将全部样本集记为 T T ,则每个区域 Rm R_m 内的最优预测值为该区域样本标签的均值 yˉm \bar{y}_m

分裂准则

分裂准则决定了算法在每个节点如何选择最优特征与切分点。不同的决策树算法采用不同的准则。

分类树常用的分裂准则包括:

  • 信息增益(Information Gain):基于信息熵(Entropy)的减少量。节点 t t 的熵定义为 H(t)=kpklog2pk H(t) = -\sum_{k} p_{k} \log_2 p_{k} ,其中 pk p_k 为第 k k 类样本在该节点中的比例。信息增益为父节点熵与加权子节点熵之差。ID3算法即以此为核心准则。
  • 增益率(Gain Ratio):信息增益除以分裂信息(Split Information),以惩罚取值过多的特征,克服信息增益对多值特征的偏好。C4.5算法采用此准则。
  • 基尼不纯度(Gini Impurity):定义为 G(t)=1kpk2 G(t) = 1 - \sum_{k} p_k^2 ,衡量从节点中随机抽取两个样本其类别不一致的概率。CART算法默认采用基尼不纯度进行分类。

回归树平方误差最小化为分裂准则。在每个节点选择使子节点残差平方和之和最小的特征与切分点:

minj,s[minc1xiR1(j,s)(yic1)2+minc2xiR2(j,s)(yic2)2]\min_{j, s} \left[ \min_{c_1} \sum_{x_i \in R_1(j,s)} (y_i - c_1)^2 + \min_{c_2} \sum_{x_i \in R_2(j,s)} (y_i - c_2)^2 \right]

其中 j j 为特征索引,s s 为切分阈值,R1 R_1 R2 R_2 为划分后的两个区域,c1 c_1 c2 c_2 分别为两区域内目标变量的均值。

剪枝与泛化控制

未加约束的决策树会将数据划分至每个叶节点仅含极少数样本,导致严重的过拟合(Overfitting),即模型在训练数据上表现优异但在新数据上预测性能急剧下降。控制模型复杂度主要有两种策略:

  1. 预剪枝(Pre-pruning):在树的生长过程中提前终止分裂,当节点样本数低于阈值、树深度达到上限或不纯度下降幅度不显著时停止划分。
  2. 后剪枝(Post-pruning):先生成一棵完整的树,再自底向上评估每个子树的泛化误差,将贡献不足的子树替换为叶节点。CART算法采用的代价复杂度剪枝(Cost-Complexity Pruning)是最经典的后剪枝方法,通过引入惩罚参数 α \alpha 在树的大小与拟合优度之间寻求权衡。

与相关方法的比较

决策树构成了一系列集成学习方法的基石。随机森林(Random Forest)通过对训练数据进行Bootstrap抽样并随机选择特征子集构建多棵决策树,以投票或平均方式聚合预测结果,显著降低了方差。梯度提升树(Gradient Boosting Decision Tree, GBDT)及其变体XGBoostLightGBM则通过逐步拟合前一轮残差来串行构建树序列,在众多结构化数据任务中取得了最先进的预测精度。

尽管单棵决策树的预测精度通常不及上述集成方法,但其直观的树状结构和清晰的分裂规则使其在需要模型可解释性的场景——如信用评分政策评估医疗诊断——中仍具有不可替代的价值。在经济学研究中,决策树也常用于探索变量间的非线性交互关系、构建倾向得分分层以及识别异质性处理效应。