ARTICLE

二元分类

二元分类 (Binary Classification) 二元分类(Binary Classification)是将对象、观测或事件分配到两个互斥类别之一的决策问题。它是统计决策理论、机器学习和信号检测理论中的核心框架,形式上可定义为一个映射 f: X \0, 1\,其中 X 为特征空间,输出编码为两个类别。与着重算法实现的二分类问题密切关联,二元分类更强调

浏览 3 更新 2025-10-27

二元分类 (Binary Classification)

二元分类(Binary Classification)是将对象、观测或事件分配到两个互斥类别之一的决策问题。它是统计决策理论机器学习信号检测理论中的核心框架,形式上可定义为一个映射 f:X{0,1}f: \mathcal{X} \to \{0, 1\},其中 X\mathcal{X} 为特征空间,输出编码为两个类别。与着重算法实现的二分类问题密切关联,二元分类更强调决策的数学结构与统计性质。

统计决策理论框架

统计决策理论的视角,二元分类是一个在不确定性下最小化期望损失的决策问题。设特征向量 XXX \in \mathcal{X},真实标签 Y{0,1}Y \in \{0, 1\},分类器 δ:X{0,1}\delta: \mathcal{X} \to \{0, 1\} 为决策规则。定义损失函数 L(y,δ(x))L(y, \delta(x)),通常采用 0-1 损失:L(y,y^)=1{yy^}L(y, \hat{y}) = \mathbf{1}\{y \neq \hat{y}\}。风险函数为期望损失 R(δ)=E[L(Y,δ(X))]R(\delta) = \mathbb{E}[L(Y, \delta(X))]

最优分类器(贝叶斯分类器)在已知真实条件概率 η(x)=P(Y=1X=x)\eta(x) = P(Y=1 \mid X=x) 时,选择后验概率较大的类别:

δ(x)=1{η(x)0.5}.\delta^*(x) = \mathbf{1}\{\eta(x) \ge 0.5\}.

该分类器在所有可能的决策规则中使风险最小化,对应的最小风险称为贝叶斯风险。当误分类代价不对称时,设假阳性代价为 cFPc_{FP}、假阴性代价为 cFNc_{FN},最优决策阈值为 cFN/(cFP+cFN)c_{FN}/(c_{FP} + c_{FN}),分类规则变为 δ(x)=1{η(x)cFN/(cFP+cFN)}\delta(x) = \mathbf{1}\{\eta(x) \ge c_{FN}/(c_{FP} + c_{FN})\}

概率模型与判别函数

二元分类可基于不同的概率建模策略实现。生成式方法通过建模类条件密度 p(xY=k)p(x \mid Y=k) 和先验 P(Y=k)P(Y=k),由贝叶斯定理导出后验概率 η(x)\eta(x)线性判别分析(LDA)假设各类服从具有相同协方差矩阵的多元正态分布,导出线性决策边界。判别式方法直接建模后验概率 η(x)\eta(x) 或决策边界,不显式建模特征分布,典型如逻辑回归通过 sigmoid 函数 σ(z)=1/(1+ez)\sigma(z) = 1/(1+e^{-z}) 建模 P(Y=1x)=σ(βx)P(Y=1 \mid x) = \sigma(\beta^\top x)基于边界的方法支持向量机,直接寻找最大化类别间几何间隔的超平面,不显式产生概率估计,但可通过 Platt scaling 等后校准技术获得概率输出。

信息论的角度,二元分类等价于在特征 XX 的条件下估计二值随机变量 YY 的状态,分类精度受限于 XXYY 之间的互信息 I(X;Y)I(X; Y)数据处理不等式保证任何基于 XX 的分类器性能不会超过原始特征信息量所设定的理论上限。

评估与误差分解

二元分类器的性能评估基于混淆矩阵,它将预测结果划分为真正例(TP)、假正例(FP)、真负例(TN)和假负例(FN)。核心评价指标包括:真正率(TPR/灵敏度/召回率)= TP/(TP+FN);假正率(FPR)= FP/(FP+TN);查准率 = TP/(TP+FP);以及F1分数作为查准率与召回率的调和平均。

分类误差可分解为偏差方差两部分。设期望分类器为 fˉ(x)=E[f^(x)]\bar{f}(x) = \mathbb{E}[\hat{f}(x)],0-1 损失下误差满足:偏差反映期望分类器与贝叶斯最优分类器在概率阈值处的符号差异,方差反映不同训练集产生的分类器的波动。此外,近似误差(模型类与贝叶斯最优分类器的差距)和估计误差(有限样本下参数估计的不精确性)共同决定了分类器的泛化性能。

与假设检验的联系

二元分类与统计假设检验在数学结构上同构。将负类视为零假设 H0H_0,正类视为备择假设 H1H_1,则分类决策等价于对每个观测进行假设检验。第一类错误(拒真,显著性水平 α\alpha)对应假正率;第二类错误(取伪,β\beta)对应假负率;统计功效 1β1-\beta 对应真正率。ROC曲线(α,1β)(\alpha, 1-\beta)分类阈值变化形成的轨迹,AUC 值可解释为随机正样本得分高于随机负样本得分的概率,等价于Mann-Whitney U统计量的归一化形式。Neyman-Pearson引理为最优分类器提供了理论依据:在给定假正率约束下,似然比检验最大化真正率,对应于选择最优ROC工作点。

概率校准与评分规则

二元分类器输出的概率估计需要经过概率校准(Probability Calibration)才能被解释为真实的类别概率。一个分类器被称为良好校准的(well-calibrated),若对所有预测概率为 p^\hat{p} 的样本,其真实正类比例也等于 p^\hat{p}:即 P(Y=1p^=s)=sP(Y=1 \mid \hat{p}=s) = s 对所有 s[0,1]s \in [0,1] 成立。校准质量可通过可靠性图(reliability diagram)或预期校准误差(Expected Calibration Error, ECE)量化评估。

常见的校准方法包括Platt scaling——用逻辑回归将原始分类器得分映射为校准概率,以及等渗回归(Isotonic Regression)——一种非参数方法,在保持得分排序的前提下拟合单调递增的校准函数。从严格恰当评分规则(strictly proper scoring rule)的理论来看,对数损失(log loss,又称交叉熵)和Brier得分均为严格恰当的评分规则,意味着分类器仅在输出真实条件概率时期望得分最优,这为概率输出的优化提供了坚实的理论指引。

经济学与社会科学中的应用

二元分类在经济决策中扮演基础性角色。信用评分模型将贷款申请人分为"违约"与"非违约"两类,是银行金融机构风险管理的核心技术工具,通常采用逻辑回归或更复杂的集成方法。劳动经济学中的就业决策(受雇/未受雇)、政策评价中的项目参与(参与/未参与)均可纳入二元分类框架。在行为经济学中,个体在不确定条件下的二元选择(接受/拒绝赌博、购买/不购买保险)为理解风险偏好和决策启发式提供了丰富的实验素材。

二元分类与离散选择模型存在深层联系。经典二元选择模型——包括Probit模型(假设潜变量误差服从正态分布)和Logit模型(假设误差服从逻辑分布)——本质上正是参数化的二元分类器。这些模型在微观计量经济学中被广泛用于分析个体选择行为,从交通方式选择到消费者购买决策。在此框架下,分类问题不仅关心预测精度,更关注结构参数(如价格弹性、边际效应)的识别与因果推断,这构成了计量经济学区别于纯粹机器学习的重要维度。