ARTICLE
二分类模型
二分类模型 (Binary Classification Model) 二分类模型是监督学习中最基础也最广泛应用的模型类别,其目标是将输入样本分配到两个互斥的类别之一——通常标记为正类(Positive,编码为 1)和负类(Negative,编码为 0)。二分类问题遍布经济学、金融学与社会科学:判断借款人是否违约、识别交易是否欺诈、预测客户是否流失、评估政策
二分类模型 (Binary Classification Model)
二分类模型是监督学习中最基础也最广泛应用的模型类别,其目标是将输入样本分配到两个互斥的类别之一——通常标记为正类(Positive,编码为 1)和负类(Negative,编码为 0)。二分类问题遍布经济学、金融学与社会科学:判断借款人是否违约、识别交易是否欺诈、预测客户是否流失、评估政策干预是否有效,本质上都是二分类问题。与回归分析不同,二分类的输出是离散的类别标签而非连续数值,这使得其建模策略、损失函数与评估体系具有独特特征。
统计决策理论基础
从统计决策论的视角,二分类模型可形式化为:给定特征向量 ,寻找一个决策函数 ,使得期望预测损失最小化。最常用的损失函数是0-1损失:,其期望即为分类错误率。
贝叶斯分类器 (Bayes Classifier) 是理论上最优的二分类器:它选择后验概率较大的类别,即 。贝叶斯分类器达到贝叶斯误差率——任何分类器在该数据分布上不可再降低的错误率下界。实际中后验概率未知,所有分类模型本质上都是在以不同方式逼近这一后验概率,并据此构造决策边界 。
核心模型族
逻辑回归 (Logistic Regression)
逻辑回归是二分类的基准模型。它假设对数几率(log-odds)与特征呈线性关系:
等价地,后验概率建模为sigmoid函数(逻辑函数):
参数 通过最大似然估计(MLE)求解,由于似然函数是凸函数,可稳定收敛到全局最优。逻辑回归的突出优势在于可解释性:系数 直接表征第 个特征对对数几率的边际效应,在信用评分、流行病学等需要透明决策的领域尤受青睐。此外,逻辑回归天然输出概率,便于校准阈值以满足不同的误分类成本要求。
线性判别分析 (LDA)
线性判别分析从另一个路径处理二分类:假设两类各自服从多元正态分布 和 (协方差矩阵相同),则后验概率的对数几率是 的线性函数。LDA 在特征确实近似正态时效率更高,且对类不平衡具有较好的鲁棒性。二次判别分析(QDA)放松了协方差矩阵相等的假设,产生二次决策边界,适应性更强但参数显著增多。
支持向量机 (SVM)
支持向量机追求的不是概率估计,而是最大间隔分类:在特征空间中寻找一个超平面,使得正负两类之间的最小距离(间隔)最大化。对于线性不可分的情况,SVM 通过核技巧将数据隐式映射到高维空间,在高维空间中构造线性超平面。常用的核函数包括径向基函数(RBF)核和多项式核。SVM 的决策仅依赖于少数支持向量——恰好位于间隔边界上的训练样本——这使其在高维稀疏数据(如文本分类)中表现优异,但概率输出需额外通过 Platt Scaling 等方法校准。
树模型与集成方法
决策树通过递归地按特征阈值分割样本空间,生成树形决策规则。单一决策树容易过拟合,但作为集成学习的基学习器时威力巨大。随机森林(Random Forest)通过Bootstrap抽样和随机特征子空间构造多棵不相关树,以投票方式聚合,显著降低方差。梯度提升树(GBDT)——包括XGBoost、LightGBM、CatBoost等实现——采用逐步加法模型,每次迭代用一棵新树拟合前一轮的残差(或梯度),在高维异构表格数据上长期占据工业界性能榜首。树模型的天然优势在于无需特征标准化、能自动捕获非线性与交互效应、对异常值不敏感。
朴素贝叶斯与 KNN
朴素贝叶斯假设特征在给定类别下条件独立:。这一强假设虽在现实中常不成立,但朴素贝叶斯在高维文本分类(如垃圾邮件过滤)中往往出人意料地有效,且训练和预测速度极快。K近邻(KNN)是最简单的非参数方法:对每个新样本,找出训练集中与其最相似的 个邻居,以邻居的多数类投票决定预测。KNN 在特征空间低维且样本量适中时表现良好,但随维度增加而遭遇维数灾难。
评估体系
二分类模型的评估远比回归复杂,不能仅看准确率——尤其是在类别不平衡场景中。
混淆矩阵是评估的基石,包含四个基础计数:真正例(TP,正确预测的正类)、假正例(FP,负类被误判为正)、真负例(TN,正确预测的负类)、假负例(FN,正类被误判为负)。据此衍生出:
- 准确率 (Accuracy):。在正负样本极度不平衡(如欺诈率万分之几)时,全判为负即可获得极高的准确率,失去参考价值。
- 精确率 (Precision):,在所有预测为正的样本中真正为正的比例,衡量"找得准不准"。
- 召回率 (Recall):,在所有真实正例中被找出多少,衡量"找得全不全"。召回率又称敏感度 (Sensitivity) 或真正例率 (TPR)。
- F1分数:精确率与召回率的调和平均,,在两者需要平衡时作为综合指标。
ROC曲线以假正例率(FPR = FP / (FP + TN))为横轴、真正例率(TPR)为纵轴,通过变动分类阈值绘制曲线。AUC(曲线下面积)汇总了 ROC 的整体性能,AUC = 1 表示完美分类,AUC = 0.5 等同于随机猜测。AUC 的直观解释为:随机抽取一个正样本和一个负样本,分类器给正样本的预测概率高于负样本的概率。在类别严重不平衡时,PR曲线(精确率-召回率曲线)比 ROC 曲线更能敏感地反映模型性能差异。
阈值选择与代价敏感学习
二分类模型大多输出概率(或分数),需要通过阈值将其转化为类别决策。默认阈值 0.5 在误分类代价对称时是合理的,但现实中假阳性与假阴性的代价往往悬殊。例如,疾病筛查中漏诊(FN)的代价远高于误诊(FP);信用卡欺诈检测中,拦截正常交易(FP)损害用户体验,但放过欺诈交易(FN)导致直接资金损失。
最优阈值可通过期望代价最小化导出:设假阳性代价为 ,假阴性代价为 ,则最优分类阈值为 。更一般地,代价敏感学习将代价矩阵嵌入训练过程,或通过过采样/欠采样调整训练集的类别分布以近似代价差异。
经济学与金融应用
在信用评分中,逻辑回归是传统核心模型,预测借款人的违约概率,结合阈值设定生成是否放贷的二元决策。巴塞尔协议对银行内部评级法(IRB)的要求直接推动了二分类模型在信用风险中的制度化应用。
在反欺诈领域,二分类模型(特别是 GBDT 和神经网络)被用于实时交易风控系统,以毫秒级延迟判断每笔交易是否可疑。由于欺诈样本极为稀疏,常采用SMOTE等过采样技术或异常检测框架辅助建模。
在政策评估中,倾向得分匹配(Propensity Score Matching)的第一步——估计个体接受处理的概率——本质上即是对二分类变量(是否接受处理)建模。倾向得分的估计质量直接影响后续因果推断的可靠性。
从统计学习的发展趋势看,深度学习在图像、语音与文本二分类中已占据主导,但在结构化表格数据中,基于树的梯度提升方法仍是强有力的竞争者,二分类模型的格局正朝着多模型融合与自动特征工程方向演进。