ARTICLE

递归特征消除

递归特征消除 (Recursive Feature Elimination, RFE) 递归特征消除 (Recursive Feature Elimination, RFE) 是一种基于包裹法 (Wrapper Method) 的特征选择算法,由 Guyon 等人在 2002 年关于基因选择的经典论文中系统提出。RFE 的核心思想是通过迭代训练模型、评估特征

浏览 0 更新 2025-10-29

递归特征消除 (Recursive Feature Elimination, RFE)

递归特征消除 (Recursive Feature Elimination, RFE) 是一种基于包裹法 (Wrapper Method) 的特征选择算法,由 Guyon 等人在 2002 年关于基因选择的经典论文中系统提出。RFE 的核心思想是通过迭代训练模型、评估特征重要性、并逐步剔除最不重要特征的方式,从高维特征空间中筛选出对预测目标最具贡献的子集。与过滤法仅依赖统计相关性不同,RFE 直接以模型预测性能作为筛选准则,因此能有效捕获特征间的交互效应和非线性依赖,代价是更高的计算成本。

算法流程

RFE 的迭代机制可分解为四个步骤。首先,初始化目标特征数 kk 或最小特征数,当前特征集 F0\mathcal{F}_0 为全部 pp 个候选变量。其次,在 Ft\mathcal{F}_t 上训练选定的基模型,提取每个特征的重要性评分。对于线性 SVM,特征 jj 的重要性由权重平方 wj2w_j^2 度量;对于随机森林,由节点不纯度减少量或置换重要度度量;对于线性回归,由回归系数的绝对值或其 t 统计量度量。第三步,按重要性升序排列特征,剔除排在末尾的一个或一批特征,得到 Ft+1\mathcal{F}_{t+1}。重复第二至第三步,直至剩余特征数等于 kk。最终输出全部特征的完整排序——最早被剔除的特征最不重要,最后保留的 kk 个构成最优子集。

当每次剔除一个特征时,算法需执行 pkp-k 轮完整模型训练,总复杂度约为 O(pC(n,p))O(p \cdot C(n,p)),其中 C(n,p)C(n,p) 为单次训练的成本。为加速计算,实践中可采用分块剔除策略——每轮剔除最不重要的 ss 个特征,以轮数换取精度。

带交叉验证的 RFE (RFECV)

RFE 的关键局限在于需要预设目标特征数 kk,而最优 kk 通常未知。带交叉验证的递归特征消除 (RFECV) 解决了这一问题:将 RFE 嵌入 K 折交叉验证循环中,对每个可能的特征子集大小评估模型在验证集上的泛化性能(准确率、AUC 或均方误差),选取使交叉验证得分最高的 kk^*。RFECV 显著缓解了 RFE 在小样本下对 kk 敏感的过拟合问题,但计算成本约增加 KK 倍。

理论性质与局限性

RFE 的性能高度依赖基模型选择。在线性可分场景下,使用线性 SVM 的 RFE 等价于基于 L2L_2 权重范数的特征排序,排序一致性较好。但当特征高度共线时,RFE 的排序结果可能不稳定:微小数据扰动即可改变被剔除的变量,导致最终子集截然不同。此场景下Lasso回归 (L1 正则化) 和弹性网等嵌入法通常更稳健。

pnp \gg n 的超高维场景中,RFE 的计算开销使其难以直接使用,常见策略是先以方差阈值法互信息过滤法预筛去 80\%--90\% 的噪声特征,再在剩余特征上执行 RFE,兼顾效率与精度。

此外,RFE 的包裹法属性使其天然倾向于过拟合——搜索到的子集可能只在训练集上表现优异而在独立样本上退化,RFECV 能部分缓解但无法根除这一风险。

在经济与金融中的应用

实证经济学中,RFE 被用于高维控制变量的筛选和预测建模。劳动经济学的工资方程估计可从数百个个体特征中借助 RFE 识别核心预测变量;金融风险管理中的信用违约预测模型依赖 RFE 在保持分类精度的前提下压缩模型的变量维度。

然而在因果推断中必须审慎:被 RFE 剔除的变量可能是实质性的混杂变量 (confounder),其省略将导致遗漏变量偏差双重选择 (double selection) 方法对此提供了补救——对结果方程和处理方程分别做选择后取并集再回归,恢复了有效推断。相较之下,RFE 更适合纯预测导向的场景,如算法交易中的信号生成、客户流失预测信用评分建模等对结构解释要求较低的任务。