ARTICLE
二分类问题
二分类问题 (Binary Classification) 二分类问题(Binary Classification)是机器学习和统计学中最基础且应用最广泛的监督学习任务之一。其目标是将输入观测样本 x X 分配到两个互斥的类别(通常编码为 0 和 1)中的某一个,即学习一个映射函数 f: X \0, 1\。该问题广泛存在于医学诊断(患病/健康)、信用评估(违
二分类问题 (Binary Classification)
二分类问题(Binary Classification)是机器学习和统计学中最基础且应用最广泛的监督学习任务之一。其目标是将输入观测样本 分配到两个互斥的类别(通常编码为 0 和 1)中的某一个,即学习一个映射函数 。该问题广泛存在于医学诊断(患病/健康)、信用评估(违约/正常)、垃圾邮件检测(垃圾/正常)和情感分析(正面/负面)等实际场景中。
核心概念与建模框架
从概率角度,二分类可理解为学习后验概率 。设标签 ,特征向量 。目标是构建决策函数,输出类别预测。
常见的建模方法分为三类。线性分类器如逻辑回归(Logistic Regression),通过 sigmoid 函数 将线性组合映射为概率估计,并使用最大似然估计进行参数学习。判别式方法如支持向量机(SVM),通过寻找最大化间隔的超平面进行分类,可借助核函数处理非线性可分的情况。生成式方法如线性判别分析(LDA),先对每类建模联合概率分布 ,再应用贝叶斯定理计算后验概率。
评估指标
二分类器的性能评估依赖混淆矩阵(Confusion Matrix),它将预测结果分为真正例(TP)、假正例(FP)、真负例(TN)和假负例(FN)。关键指标包括:精确率(Precision)= TP/(TP+FP),衡量预测为正的样本中真正为正的比例;召回率(Recall)= TP/(TP+FN),衡量真实正样本中被正确识别的比例;F1分数是精确率与召回率的调和平均;准确率在类别平衡时有效,但在极度不平衡时可能产生误导,此时需关注ROC曲线下的 AUC 值。
常见挑战与对策
二分类面临的主要挑战包括类别不平衡,可通过过采样(如SMOTE)、欠采样或加权损失函数缓解。决策阈值的选择需根据实际场景在精确率与召回率之间权衡,常通过扫描阈值寻找F1最大值或满足特定业务约束来确定。模型可解释性在医疗和金融等高风险决策中至关重要,可借助 SHAP、LIME 等工具对黑箱模型进行事后解释。二分类问题虽形式简单,却构成了几乎所有需要做出是/否判断的自动化决策系统的核心。