ARTICLE

二分类问题

二分类问题 (Binary Classification) 二分类问题（Binary Classification）是机器学习和统计学中最基础且应用最广泛的监督学习任务之一。其目标是将输入观测样本 x X 分配到两个互斥的类别（通常编码为 0 和 1）中的某一个，即学习一个映射函数 f: X \0, 1\。该问题广泛存在于医学诊断（患病/健康）、信用评估（违

浏览 0 更新 2025-12-13

二分类问题 (Binary Classification)

二分类问题（Binary Classification）是机器学习和统计学中最基础且应用最广泛的监督学习任务之一。其目标是将输入观测样本 $x \in \mathcal{X}$ 分配到两个互斥的类别（通常编码为 0 和 1）中的某一个，即学习一个映射函数 $f: \mathcal{X} \to \{0, 1\}$ 。该问题广泛存在于医学诊断（患病/健康）、信用评估（违约/正常）、垃圾邮件检测（垃圾/正常）和情感分析（正面/负面）等实际场景中。

核心概念与建模框架

从概率角度，二分类可理解为学习后验概率 $P(Y=1 \mid X=x)$ 。设标签 $Y \in \{0, 1\}$ ，特征向量 $X = (x_1, \ldots, x_p)$ 。目标是构建决策函数，输出类别预测。

常见的建模方法分为三类。线性分类器如逻辑回归（Logistic Regression），通过 sigmoid 函数 $\sigma(z) = 1/(1+e^{-z})$ 将线性组合映射为概率估计，并使用最大似然估计进行参数学习。判别式方法如支持向量机（SVM），通过寻找最大化间隔的超平面进行分类，可借助核函数处理非线性可分的情况。生成式方法如线性判别分析（LDA），先对每类建模联合概率分布 $P(X, Y)$ ，再应用贝叶斯定理计算后验概率。

评估指标

二分类器的性能评估依赖混淆矩阵（Confusion Matrix），它将预测结果分为真正例（TP）、假正例（FP）、真负例（TN）和假负例（FN）。关键指标包括：精确率（Precision）= TP/(TP+FP)，衡量预测为正的样本中真正为正的比例；召回率（Recall）= TP/(TP+FN)，衡量真实正样本中被正确识别的比例；F1分数是精确率与召回率的调和平均；准确率在类别平衡时有效，但在极度不平衡时可能产生误导，此时需关注ROC曲线下的 AUC 值。

常见挑战与对策

二分类面临的主要挑战包括类别不平衡，可通过过采样（如SMOTE）、欠采样或加权损失函数缓解。决策阈值的选择需根据实际场景在精确率与召回率之间权衡，常通过扫描阈值寻找F1最大值或满足特定业务约束来确定。模型可解释性在医疗和金融等高风险决策中至关重要，可借助 SHAP、LIME 等工具对黑箱模型进行事后解释。二分类问题虽形式简单，却构成了几乎所有需要做出是/否判断的自动化决策系统的核心。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。