ARTICLE

类别不平衡

类别不平衡（Class Imbalance）是机器学习分类任务中最棘手的数据分布问题之一，指不同类别的样本数量存在显著差异。这一现象在实际应用中极为普遍：欺诈检测中正常交易与欺诈交易的比例可达1000:1；罕见病诊断中健康样本与患病样本的比例甚至高达10000:1；其他如工业设备故障预测、广告点击率预估、文本情感分析、卫星图像目标检测等场景，类别不平衡问题同

浏览 0 更新 2025-12-13

问题本质与影响

类别不平衡之所以构成根本性挑战，关键在于大多数标准分类算法以"整体准确率"为优化目标。当负样本占绝大多数时，分类器只需将所有样本预测为负类即可获得看似完美的准确率（如99.9\%），却完全丧失了识别正类样本的能力。这种"准确率悖论"揭示了在不平衡场景下单纯追求准确率的严重误导性。

从更深层次看，类别不平衡的本质体现在两个维度：数据层面——少数类样本数量不足，导致模型难以学习到其内在的分布规律和判别性特征，模型对少数类的估计方差极大，泛化能力严重受限；算法层面——标准损失函数（如交叉熵）在多数类样本的梯度主导下，使得决策边界严重偏向多数类一侧，少数类被"淹没"在多数类的统计模式中。

主要处理方法

1. 数据层面方法

重采样技术是最直观的应对策略。随机过采样（Random Oversampling）通过随机复制少数类样本来平衡比例分布，操作简单但容易导致模型对重复样本过拟合，泛化能力下降。随机欠采样（Random Undersampling）则随机丢弃多数类样本，计算效率高，但可能遗失对决策边界有重要价值的样本信息，造成信息损失。

合成采样方法中，SMOTE（Synthetic Minority Oversampling Technique）是最具里程碑意义的算法。SMOTE在少数类样本与其k个近邻之间进行线性插值，生成全新的合成样本而非简单复制，有效缓解了过拟合问题。后续改进层出不穷：Borderline-SMOTE聚焦边界区域的难分样本进行合成；ADASYN根据每个样本的学习难度自适应调整生成数量；KMeans-SMOTE引入聚类步骤以降低噪声干扰；SVMSMOTE则利用支持向量机识别边界区域。近年来，基于生成对抗网络（GAN）和变分自编码器（VAE）的深度采样方法在图像、文本等高维复杂数据上也展现出优异效果。

集成采样将采样策略与集成学习有机结合。EasyEnsemble独立采样多个平衡子集并分别训练基分类器，最终通过投票集成预测结果；BalanceCascade采用迭代方式，逐步移除已被正确分类的多数类样本，迫使后续模型关注更难识别的样本，从而提升少数类的识别率。

2. 算法层面方法

代价敏感学习（Cost-Sensitive Learning）通过对不同类别的误分类赋予差异化权重，迫使模型重视少数类。具体实现路径包括：在损失函数中引入与类别频率成反比的权重系数、在训练后调整决策阈值（如将默认的0.5阈值下调至0.3或0.2以提升召回率）、或在树模型（如XGBoost、LightGBM）中设置\texttt{scale\_pos\_weight}等样本权重参数。以加权的交叉熵损失为例：\texttt{Loss = -[ $w_pos$ × y × log(p̂) + $w_neg$ × (1-y) × log(1-p̂)]}，其中典型取值为\texttt{ $w_pos$ = $N_neg$ / $N_total$ }、\texttt{ $w_neg$ = $N_pos$ / $N_total$ }，确保少数类样本的总权重与多数类相当。

单类学习（One-Class Learning）适用于极度不平衡场景。其核心思想是仅使用多数类（正常类）训练模型来刻画"正常"模式，任何偏离这一模式的样本均标记为异常。代表性方法包括One-Class SVM、Isolation Forest，以及基于自编码器重构误差的深度异常检测框架。

3. 评价指标选择

在不平衡场景下，准确率已完全失去参考价值。合适替代指标包括：综合精确率（Precision）与召回率（Recall）的调和平均——F1分数；对所有类别分别计算再取平均的宏平均F1（Macro F1），它对少数类表现更敏感；以及PR曲线下面积（AUC-PR），它在不平衡数据中比ROC曲线更具鉴别力，因为ROC的假正率（FPR）受多数类样本量主导，在极度不平衡时会给出过分乐观的评估结果。

实践指导原则

处理类别不平衡应遵循"先诊断、后治疗"的务实策略。轻度不平衡（比例小于10:1）时，简单调整分类阈值或加权损失即可有效应对；中度不平衡（10:1至100:1）时，SMOTE或集成采样效果最为稳健；极度不平衡（大于100:1）时，优先考虑单类学习或异常检测框架，此时传统分类方法的改进空间已十分有限。

关键注意事项包括：所有重采样操作只能在训练集上执行，测试集必须保持原始自然分布以反映真实场景的泛化性能；对于高维稀疏数据（如文本分类中的词袋特征或One-Hot编码），过采样可能引入噪声和虚假模式，此时算法层面方法更为适用；应对不平衡时需结合业务成本综合考量——在医疗诊断场景中，漏诊的代价远高于误诊，因此应优先追求高召回率而非高精确率；在欺诈检测中，则需在召回率与误报率之间精细权衡。

类别不平衡是机器学习工程实践中最核心也最普遍的挑战之一，深入理解其本质机理、系统掌握多种处理手段、并根据具体业务场景灵活取舍，是构建真正稳健可靠分类系统的必备能力。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。