ARTICLE

二分类模型

二分类模型 (Binary Classification Model) 二分类模型是监督学习中最基础也最广泛应用的模型类别，其目标是将输入样本分配到两个互斥的类别之一——通常标记为正类（Positive，编码为 1）和负类（Negative，编码为 0）。二分类问题遍布经济学、金融学与社会科学：判断借款人是否违约、识别交易是否欺诈、预测客户是否流失、评估政策

浏览 0 更新 2025-12-13

二分类模型 (Binary Classification Model)

二分类模型是监督学习中最基础也最广泛应用的模型类别，其目标是将输入样本分配到两个互斥的类别之一——通常标记为正类（Positive，编码为 1）和负类（Negative，编码为 0）。二分类问题遍布经济学、金融学与社会科学：判断借款人是否违约、识别交易是否欺诈、预测客户是否流失、评估政策干预是否有效，本质上都是二分类问题。与回归分析不同，二分类的输出是离散的类别标签而非连续数值，这使得其建模策略、损失函数与评估体系具有独特特征。

统计决策理论基础

从统计决策论的视角，二分类模型可形式化为：给定特征向量 $\mathbf{x} \in \mathbb{R}^p$ ，寻找一个决策函数 $f: \mathbb{R}^p \to \{0, 1\}$ ，使得期望预测损失最小化。最常用的损失函数是0-1损失： $L(y, f(\mathbf{x})) = \mathbf{1}[y \neq f(\mathbf{x})]$ ，其期望即为分类错误率。

贝叶斯分类器 (Bayes Classifier) 是理论上最优的二分类器：它选择后验概率较大的类别，即 $f^*(\mathbf{x}) = \mathbf{1}[P(Y=1 \mid \mathbf{X}=\mathbf{x}) \geq 0.5]$ 。贝叶斯分类器达到贝叶斯误差率——任何分类器在该数据分布上不可再降低的错误率下界。实际中后验概率未知，所有分类模型本质上都是在以不同方式逼近这一后验概率，并据此构造决策边界 $\{\mathbf{x}: P(Y=1 \mid \mathbf{X}=\mathbf{x}) = 0.5\}$ 。

核心模型族

逻辑回归 (Logistic Regression)

逻辑回归是二分类的基准模型。它假设对数几率（log-odds）与特征呈线性关系：

\log\frac{P(Y=1 \mid \mathbf{X}=\mathbf{x})}{1 - P(Y=1 \mid \mathbf{X}=\mathbf{x})} = \boldsymbol{\beta}^T\mathbf{x}

等价地，后验概率建模为sigmoid函数（逻辑函数）：

P(Y=1 \mid \mathbf{X}=\mathbf{x}) = \frac{1}{1 + e^{-\boldsymbol{\beta}^T\mathbf{x}}}

参数 $\boldsymbol{\beta}$ 通过最大似然估计（MLE）求解，由于似然函数是凸函数，可稳定收敛到全局最优。逻辑回归的突出优势在于可解释性：系数 $\beta_j$ 直接表征第 $j$ 个特征对对数几率的边际效应，在信用评分、流行病学等需要透明决策的领域尤受青睐。此外，逻辑回归天然输出概率，便于校准阈值以满足不同的误分类成本要求。

线性判别分析 (LDA)

线性判别分析从另一个路径处理二分类：假设两类各自服从多元正态分布 $\mathcal{N}(\boldsymbol{\mu}_0, \boldsymbol{\Sigma})$ 和 $\mathcal{N}(\boldsymbol{\mu}_1, \boldsymbol{\Sigma})$ （协方差矩阵相同），则后验概率的对数几率是 $\mathbf{x}$ 的线性函数。LDA 在特征确实近似正态时效率更高，且对类不平衡具有较好的鲁棒性。二次判别分析（QDA）放松了协方差矩阵相等的假设，产生二次决策边界，适应性更强但参数显著增多。

支持向量机 (SVM)

支持向量机追求的不是概率估计，而是最大间隔分类：在特征空间中寻找一个超平面，使得正负两类之间的最小距离（间隔）最大化。对于线性不可分的情况，SVM 通过核技巧将数据隐式映射到高维空间，在高维空间中构造线性超平面。常用的核函数包括径向基函数（RBF）核和多项式核。SVM 的决策仅依赖于少数支持向量——恰好位于间隔边界上的训练样本——这使其在高维稀疏数据（如文本分类）中表现优异，但概率输出需额外通过 Platt Scaling 等方法校准。

树模型与集成方法

决策树通过递归地按特征阈值分割样本空间，生成树形决策规则。单一决策树容易过拟合，但作为集成学习的基学习器时威力巨大。随机森林（Random Forest）通过Bootstrap抽样和随机特征子空间构造多棵不相关树，以投票方式聚合，显著降低方差。梯度提升树（GBDT）——包括XGBoost、LightGBM、CatBoost等实现——采用逐步加法模型，每次迭代用一棵新树拟合前一轮的残差（或梯度），在高维异构表格数据上长期占据工业界性能榜首。树模型的天然优势在于无需特征标准化、能自动捕获非线性与交互效应、对异常值不敏感。

朴素贝叶斯与 KNN

朴素贝叶斯假设特征在给定类别下条件独立： $P(\mathbf{x} \mid y) = \prod_{j=1}^p P(x_j \mid y)$ 。这一强假设虽在现实中常不成立，但朴素贝叶斯在高维文本分类（如垃圾邮件过滤）中往往出人意料地有效，且训练和预测速度极快。K近邻（KNN）是最简单的非参数方法：对每个新样本，找出训练集中与其最相似的 $K$ 个邻居，以邻居的多数类投票决定预测。KNN 在特征空间低维且样本量适中时表现良好，但随维度增加而遭遇维数灾难。

评估体系

二分类模型的评估远比回归复杂，不能仅看准确率——尤其是在类别不平衡场景中。

混淆矩阵是评估的基石，包含四个基础计数：真正例（TP，正确预测的正类）、假正例（FP，负类被误判为正）、真负例（TN，正确预测的负类）、假负例（FN，正类被误判为负）。据此衍生出：

准确率 (Accuracy)： $(TP + TN) / (TP + TN + FP + FN)$ 。在正负样本极度不平衡（如欺诈率万分之几）时，全判为负即可获得极高的准确率，失去参考价值。
精确率 (Precision)： $TP / (TP + FP)$ ，在所有预测为正的样本中真正为正的比例，衡量"找得准不准"。
召回率 (Recall)： $TP / (TP + FN)$ ，在所有真实正例中被找出多少，衡量"找得全不全"。召回率又称敏感度 (Sensitivity) 或真正例率 (TPR)。
F1分数：精确率与召回率的调和平均， $F_1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$ ，在两者需要平衡时作为综合指标。

ROC曲线以假正例率（FPR = FP / (FP + TN)）为横轴、真正例率（TPR）为纵轴，通过变动分类阈值绘制曲线。AUC（曲线下面积）汇总了 ROC 的整体性能，AUC = 1 表示完美分类，AUC = 0.5 等同于随机猜测。AUC 的直观解释为：随机抽取一个正样本和一个负样本，分类器给正样本的预测概率高于负样本的概率。在类别严重不平衡时，PR曲线（精确率-召回率曲线）比 ROC 曲线更能敏感地反映模型性能差异。

阈值选择与代价敏感学习

二分类模型大多输出概率（或分数），需要通过阈值将其转化为类别决策。默认阈值 0.5 在误分类代价对称时是合理的，但现实中假阳性与假阴性的代价往往悬殊。例如，疾病筛查中漏诊（FN）的代价远高于误诊（FP）；信用卡欺诈检测中，拦截正常交易（FP）损害用户体验，但放过欺诈交易（FN）导致直接资金损失。

最优阈值可通过期望代价最小化导出：设假阳性代价为 $C_{FP}$ ，假阴性代价为 $C_{FN}$ ，则最优分类阈值为 $C_{FN} / (C_{FN} + C_{FP})$ 。更一般地，代价敏感学习将代价矩阵嵌入训练过程，或通过过采样/欠采样调整训练集的类别分布以近似代价差异。

经济学与金融应用

在信用评分中，逻辑回归是传统核心模型，预测借款人的违约概率，结合阈值设定生成是否放贷的二元决策。巴塞尔协议对银行内部评级法（IRB）的要求直接推动了二分类模型在信用风险中的制度化应用。

在反欺诈领域，二分类模型（特别是 GBDT 和神经网络）被用于实时交易风控系统，以毫秒级延迟判断每笔交易是否可疑。由于欺诈样本极为稀疏，常采用SMOTE等过采样技术或异常检测框架辅助建模。

在政策评估中，倾向得分匹配（Propensity Score Matching）的第一步——估计个体接受处理的概率——本质上即是对二分类变量（是否接受处理）建模。倾向得分的估计质量直接影响后续因果推断的可靠性。

从统计学习的发展趋势看，深度学习在图像、语音与文本二分类中已占据主导，但在结构化表格数据中，基于树的梯度提升方法仍是强有力的竞争者，二分类模型的格局正朝着多模型融合与自动特征工程方向演进。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。