ARTICLE

分类

分类分类（Classification）是监督学习（Supervised Learning）的核心任务之一，指根据已知类别标签（Class Label）的样本数据，学习一个分类模型（Classifier），从而将新的未标记样本划分到预先定义的类别中。与回归（Regression）预测连续数值不同，分类问题的输出是离散的类别标签。分类是模式识别、数据挖掘和人

浏览 0 更新 2026-07-15

分类

分类（Classification）是监督学习（Supervised Learning）的核心任务之一，指根据已知类别标签（Class Label）的样本数据，学习一个分类模型（Classifier），从而将新的未标记样本划分到预先定义的类别中。与回归（Regression）预测连续数值不同，分类问题的输出是离散的类别标签。分类是模式识别、数据挖掘和人工智能领域中最基本的问题之一，在实际应用中具有广泛而深远的意义，涵盖了从垃圾邮件过滤到医学影像诊断等诸多重要场景。

基本概念

分类问题由三个核心要素构成：特征向量（Feature Vector） $x \in \mathcal{X}$ 、类别标签（Label） $y \in \mathcal{Y}$ ，以及训练数据集 $\mathcal{D} = \{(x_i, y_i)\}_{i=1}^n$ 。分类模型的目标是找到决策函数 $f: \mathcal{X} \to \mathcal{Y}$ ，使其在未知数据上的泛化误差（Generalization Error）最小化。当 $\mathcal{Y}$ 仅包含两个类别时（如"是/否"、"正/负"、"垃圾邮件/正常邮件"），称为二分类问题（Binary Classification）；当 $\mathcal{Y}$ 包含三个及以上类别时，则称为多分类问题（Multi-class Classification）。此外，还有一种特殊情形称为多标签分类（Multi-label Classification），其中每个样本可以同时属于多个类别，例如一张图片中同时包含"天空"、"树木"和"人物"等多个标签。

选择合适的分类算法取决于多个因素，包括数据的维度、样本数量、类别分布以及应用场景对可解释性的要求。例如，在医疗领域，可解释性至关重要，因此决策树或逻辑回归往往比深度神经网络更受青睐；而在图像识别任务中，精度优先，深度学习方法通常表现更优。

常用分类算法

逻辑回归（Logistic Regression）是最基础的分类算法之一，通过Sigmoid函数将线性组合映射到 $[0,1]$ 区间，输出属于某一类别的概率，尤其适合二分类任务。其优点是计算效率高、可解释性强，缺点是在特征空间复杂时表达能力有限。支持向量机（Support Vector Machine, SVM）通过寻找最大间隔超平面来划分不同类别，并结合核技巧（Kernel Trick）处理非线性可分数据，在小样本场景下表现优异。决策树（Decision Tree）以树状结构对特征空间进行递归划分，具有可解释性强的优点，但容易过拟合，通常需要通过剪枝或设置最大深度来加以控制。随机森林（Random Forest）通过集成多棵决策树并引入随机性来提升泛化性能，是实践中最常用的集成学习方法之一，兼具高精度和良好的鲁棒性。 $k$ -近邻算法（ $k$ -Nearest Neighbors, $k$ -NN）是一种非参数方法，根据样本在特征空间中 $k$ 个最近邻的多数类别进行预测，简单直观但计算成本随数据量增加而上升，且对特征的尺度敏感。朴素贝叶斯分类器（Naive Bayes Classifier）基于贝叶斯定理和特征条件独立假设，计算后验概率并选择概率最大的类别，在文本分类任务中效果尤为突出，但特征独立性假设在现实中往往难以满足。

模型评估与选择

分类模型的性能评估依赖于混淆矩阵（Confusion Matrix），其中包含真正例（True Positive, TP）、真负例（True Negative, TN）、假正例（False Positive, FP）和假负例（False Negative, FN）四个基本量。基于混淆矩阵可推导出多个评估指标：准确率（Accuracy）衡量整体预测正确的比例，但在类别不平衡时可能误导评估结果；精确率（Precision）衡量被预测为正类的样本中真正为正类的比例，关注预测的"精准度"；召回率（Recall）衡量所有正类样本中被正确识别的比例，关注预测的"完整性"； $F_1$ -分数（ $F_1$ -Score）是精确率和召回率的调和平均数，在类别不平衡时比准确率更具参考价值。ROC曲线（Receiver Operating Characteristic Curve）以假正率为横轴、真正率为纵轴绘制曲线，AUC（Area Under the Curve）量化曲线下面积，从全局角度评估模型在不同决策阈值下的判别能力，不受类别分布的影响。

应用场景

分类算法在现实世界中应用极为广泛。在医疗诊断中，分类模型用于判断肿瘤为良性或恶性，辅助医生做出更准确的诊断决策，从而提高患者的生存率。在垃圾邮件检测中，系统自动将邮件分类为"正常"或"垃圾"，保护用户免受骚扰和欺诈。在图像识别中，深度卷积神经网络能够以极高精度识别图片中的物体类别，推动自动驾驶、安防监控和医学影像分析等领域的发展。在信用评分中，银行利用分类模型评估客户的违约风险，从而做出更合理的贷款决策。此外，分类技术还在自然语言处理（情感分析、主题分类、机器翻译）、推荐系统（用户兴趣分类与偏好预测）以及异常检测（金融欺诈交易识别、工业设备故障检测、网络安全入侵检测）等场景中发挥着不可替代的关键作用。

挑战与前沿

实际分类任务面临多重挑战。类别不平衡（Class Imbalance）问题中，某些类别的样本数量远少于其他类别，导致模型偏向多数类，常用处理方法包括过采样（如SMOTE算法）和欠采样，以及使用代价敏感学习来调整不同类别的误分代价。多标签分类允许一个样本同时属于多个类别，比传统单标签分类更为复杂，需要特殊的损失函数和评估指标。深度学习的兴起带来了端到端分类范式，卷积神经网络（CNN）在图像分类、Transformer在文本分类中均取得了突破性成果。随着数据规模不断增长和模型复杂度日益提升，如何平衡分类模型的可解释性（Interpretability）与预测精度，以及如何增强模型对对抗样本的鲁棒性（Robustness），成为当前研究的重要方向。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。