ARTICLE
递归特征消除
递归特征消除 (Recursive Feature Elimination, RFE) 递归特征消除 (Recursive Feature Elimination, RFE) 是一种基于包裹法 (Wrapper Method) 的特征选择算法,由 Guyon 等人在 2002 年关于基因选择的经典论文中系统提出。RFE 的核心思想是通过迭代训练模型、评估特征
递归特征消除 (Recursive Feature Elimination, RFE)
递归特征消除 (Recursive Feature Elimination, RFE) 是一种基于包裹法 (Wrapper Method) 的特征选择算法,由 Guyon 等人在 2002 年关于基因选择的经典论文中系统提出。RFE 的核心思想是通过迭代训练模型、评估特征重要性、并逐步剔除最不重要特征的方式,从高维特征空间中筛选出对预测目标最具贡献的子集。与过滤法仅依赖统计相关性不同,RFE 直接以模型预测性能作为筛选准则,因此能有效捕获特征间的交互效应和非线性依赖,代价是更高的计算成本。
算法流程
RFE 的迭代机制可分解为四个步骤。首先,初始化目标特征数 或最小特征数,当前特征集 为全部 个候选变量。其次,在 上训练选定的基模型,提取每个特征的重要性评分。对于线性 SVM,特征 的重要性由权重平方 度量;对于随机森林,由节点不纯度减少量或置换重要度度量;对于线性回归,由回归系数的绝对值或其 t 统计量度量。第三步,按重要性升序排列特征,剔除排在末尾的一个或一批特征,得到 。重复第二至第三步,直至剩余特征数等于 。最终输出全部特征的完整排序——最早被剔除的特征最不重要,最后保留的 个构成最优子集。
当每次剔除一个特征时,算法需执行 轮完整模型训练,总复杂度约为 ,其中 为单次训练的成本。为加速计算,实践中可采用分块剔除策略——每轮剔除最不重要的 个特征,以轮数换取精度。
带交叉验证的 RFE (RFECV)
RFE 的关键局限在于需要预设目标特征数 ,而最优 通常未知。带交叉验证的递归特征消除 (RFECV) 解决了这一问题:将 RFE 嵌入 K 折交叉验证循环中,对每个可能的特征子集大小评估模型在验证集上的泛化性能(准确率、AUC 或均方误差),选取使交叉验证得分最高的 。RFECV 显著缓解了 RFE 在小样本下对 敏感的过拟合问题,但计算成本约增加 倍。
理论性质与局限性
RFE 的性能高度依赖基模型选择。在线性可分场景下,使用线性 SVM 的 RFE 等价于基于 权重范数的特征排序,排序一致性较好。但当特征高度共线时,RFE 的排序结果可能不稳定:微小数据扰动即可改变被剔除的变量,导致最终子集截然不同。此场景下Lasso回归 (L1 正则化) 和弹性网等嵌入法通常更稳健。
在 的超高维场景中,RFE 的计算开销使其难以直接使用,常见策略是先以方差阈值法或互信息过滤法预筛去 80\%--90\% 的噪声特征,再在剩余特征上执行 RFE,兼顾效率与精度。
此外,RFE 的包裹法属性使其天然倾向于过拟合——搜索到的子集可能只在训练集上表现优异而在独立样本上退化,RFECV 能部分缓解但无法根除这一风险。
在经济与金融中的应用
在实证经济学中,RFE 被用于高维控制变量的筛选和预测建模。劳动经济学的工资方程估计可从数百个个体特征中借助 RFE 识别核心预测变量;金融风险管理中的信用违约预测模型依赖 RFE 在保持分类精度的前提下压缩模型的变量维度。
然而在因果推断中必须审慎:被 RFE 剔除的变量可能是实质性的混杂变量 (confounder),其省略将导致遗漏变量偏差。双重选择 (double selection) 方法对此提供了补救——对结果方程和处理方程分别做选择后取并集再回归,恢复了有效推断。相较之下,RFE 更适合纯预测导向的场景,如算法交易中的信号生成、客户流失预测和信用评分建模等对结构解释要求较低的任务。