ARTICLE

二分类问题

二分类问题 (Binary Classification) 二分类问题(Binary Classification)是机器学习和统计学中最基础且应用最广泛的监督学习任务之一。其目标是将输入观测样本 x X 分配到两个互斥的类别(通常编码为 0 和 1)中的某一个,即学习一个映射函数 f: X \0, 1\。该问题广泛存在于医学诊断(患病/健康)、信用评估(违

浏览 0 更新 2025-12-13

二分类问题 (Binary Classification)

二分类问题(Binary Classification)是机器学习统计学中最基础且应用最广泛的监督学习任务之一。其目标是将输入观测样本 xXx \in \mathcal{X} 分配到两个互斥的类别(通常编码为 0 和 1)中的某一个,即学习一个映射函数 f:X{0,1}f: \mathcal{X} \to \{0, 1\}。该问题广泛存在于医学诊断(患病/健康)、信用评估(违约/正常)、垃圾邮件检测(垃圾/正常)和情感分析(正面/负面)等实际场景中。

核心概念与建模框架

从概率角度,二分类可理解为学习后验概率 P(Y=1X=x)P(Y=1 \mid X=x)。设标签 Y{0,1}Y \in \{0, 1\},特征向量 X=(x1,,xp)X = (x_1, \ldots, x_p)。目标是构建决策函数,输出类别预测。

常见的建模方法分为三类。线性分类器逻辑回归(Logistic Regression),通过 sigmoid 函数 σ(z)=1/(1+ez)\sigma(z) = 1/(1+e^{-z}) 将线性组合映射为概率估计,并使用最大似然估计进行参数学习。判别式方法支持向量机(SVM),通过寻找最大化间隔的超平面进行分类,可借助核函数处理非线性可分的情况。生成式方法如线性判别分析(LDA),先对每类建模联合概率分布 P(X,Y)P(X, Y),再应用贝叶斯定理计算后验概率。

评估指标

二分类器的性能评估依赖混淆矩阵(Confusion Matrix),它将预测结果分为真正例(TP)、假正例(FP)、真负例(TN)和假负例(FN)。关键指标包括:精确率(Precision)= TP/(TP+FP),衡量预测为正的样本中真正为正的比例;召回率(Recall)= TP/(TP+FN),衡量真实正样本中被正确识别的比例;F1分数是精确率与召回率的调和平均;准确率在类别平衡时有效,但在极度不平衡时可能产生误导,此时需关注ROC曲线下的 AUC 值。

常见挑战与对策

二分类面临的主要挑战包括类别不平衡,可通过过采样(如SMOTE)、欠采样或加权损失函数缓解。决策阈值的选择需根据实际场景在精确率与召回率之间权衡,常通过扫描阈值寻找F1最大值或满足特定业务约束来确定。模型可解释性在医疗和金融等高风险决策中至关重要,可借助 SHAP、LIME 等工具对黑箱模型进行事后解释。二分类问题虽形式简单,却构成了几乎所有需要做出是/否判断的自动化决策系统的核心。