ARTICLE

假正例

假正例 (False Positive) 假正例 (False Positive, FP) 是二分类问题与统计假设检验中的基本概念，指实际属于负类的样本被模型错误地预测为正类的情形。与假阳性——统计检验中错误拒绝原假设 H_0 的第一类错误——在数学上同构，但假正例侧重于分类与机器学习语境，强调样本级别的误判而非分布层面的决策错误。假正例与假负例

浏览 0 更新 2025-12-25

假正例 (False Positive)

假正例 (False Positive, FP) 是二分类问题与统计假设检验中的基本概念，指实际属于负类的样本被模型错误地预测为正类的情形。与假阳性——统计检验中错误拒绝原假设 $H_0$ 的第一类错误——在数学上同构，但假正例侧重于分类与机器学习语境，强调样本级别的误判而非分布层面的决策错误。假正例与假负例 (False Negative) 共同构成分类器两类不可同时消除的错误来源。

混淆矩阵中的位置

假正例在混淆矩阵中占据右上角：预测为正但真实为负。完整的混淆矩阵为：

\begin{array}{c|cc} & \text{预测正类} & \text{预测负类} \\ \hline \text{真实正类} & TP & FN \\ \text{真实负类} & FP & TN \end{array}

由此导出的假正例率 (False Positive Rate, FPR) 为：

\text{FPR} = \frac{FP}{FP + TN} = 1 - \text{Specificity}.

FPR 衡量模型在所有真实负类中误判的比例，与真阳性率 TPR (= Recall) 通过分类阈值形成 ROC曲线的横纵轴。

假正例与假负例的权衡

分类器通过调节决策阈值在假正例与假负例之间权衡，这一关系是 Neyman-Pearson引理的直接推论：在固定假正例率约束下最大化真阳性率的检验即似然比检验。降低阈值可捕获更多正例（减少假负例），但同时将更多负例误判为正类（增加假正例）。最优阈值依赖于误分类代价：在疾病筛查中，假负例（漏诊）代价远高于假正例（误诊），阈值倾向放低；在垃圾邮件过滤中，假正例（误删重要邮件）比假负例（漏过少量垃圾邮件）更具破坏性，阈值倾向保守。

代价敏感学习

代价敏感学习 (Cost-Sensitive Learning) 将假正例与假负例的代价不对称性纳入训练目标。设 $C_{FP}$ 为假正例的单位代价， $C_{FN}$ 为假负例的单位代价，期望代价为：

\mathbb{E}[\text{Cost}] = C_{FP} \cdot FP + C_{FN} \cdot FN.

当 $C_{FP} \gg C_{FN}$ 时，分类器应偏向保守（减少假正例）；反之亦然。实践中可通过调整类别权重或重采样实现，如在信用卡欺诈检测中，欺诈交易（正类）极为稀疏，若不引入代价敏感机制，模型倾向于将所有样本预测为正常（负类），导致假负例泛滥；但这同时意味着假正例率可能在绝对数量上仍然可观——即便 FPR 很低，由于负类基数庞大，假正例的绝对数仍可能超过真阳性。

多重比较中的假正例累积

当分类器同时对大量样本或特征做出判断时，假正例问题因多重性而加剧。若独立检验 $m$ 个特征，每个以 $\alpha = 0.05$ 的假正例容忍度筛选，则期望假正例数为 $m\alpha$ 。在基因组关联研究中 $m$ 可达百万量级，未经校正时将产生数以万计的虚假关联。Bonferroni校正与 Benjamini-Hochberg 方法分别控制族系错误率和错误发现率，是应对假正例累积的标准手段。

与假阳性的关系

假正例与假阳性在本质上等价——都指误将阴性/负类判定为阳性/正类。区别主要在于使用语境：统计假设检验中偏好 假阳性 和 第一类错误，强调决策规则的错误概率；机器学习与分类问题中偏好 假正例，强调样本个体的误判类型。在二元分类的统计学习理论中，假正例率与检验水准 $\alpha$ 的对应关系为二者提供了统一的数学框架。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。