ARTICLE

混淆矩阵

混淆矩阵 (Confusion Matrix) 混淆矩阵 (Confusion Matrix) 是评估分类模型 (Classification Model) 性能的基本工具，以表格形式系统展示模型预测结果与真实标签之间的对应关系。在机器学习、统计推断和计量经济学中，混淆矩阵将预测结果分解为四类基本计数，为后续的精确率、召回率、F1 分数等衍生指标提供了统一的

浏览 3 更新 2025-10-28

混淆矩阵 (Confusion Matrix)

混淆矩阵 (Confusion Matrix) 是评估分类模型 (Classification Model) 性能的基本工具，以表格形式系统展示模型预测结果与真实标签之间的对应关系。在机器学习、统计推断和计量经济学中，混淆矩阵将预测结果分解为四类基本计数，为后续的精确率、召回率、F1 分数等衍生指标提供了统一的核算框架。它不仅是二分类问题的标准诊断手段，也可以推广到多类别场景。

混淆矩阵的"混淆"一词恰如其分：它捕捉了模型在哪些类别之间发生了误判——即模型将类别 A"混淆"为类别 B 的频率。这种结构化错误信息远比单一的准确率 (Accuracy) 更能揭示模型的真实行为模式，尤其当类别分布不平衡时。

二分类混淆矩阵

对于一个二分类问题，将类别记为正类 (Positive) 和负类 (Negative)，混淆矩阵是一个 $2 \times 2$ 的列联表，每一行对应真实类别，每一列对应预测类别：

\begin{array}{c|cc} & \text{预测为正} & \text{预测为负} \\ \hline \text{实际为正} & TP & FN \\ \text{实际为负} & FP & TN \\ \end{array}

其中四个元素分别为：

真阳性 (True Positive, TP)：实际为正类且被正确预测为正类的样本。例如，信用卡欺诈检测中，真正欺诈的交易被系统标记为欺诈。
真阴性 (True Negative, TN)：实际为负类且被正确预测为负类的样本。例如，正常交易被标记为正常。
假阳性 (False Positive, FP)：实际为负类但被错误预测为正类的样本。在统计假设检验中，这对应于第一类错误 (Type I Error)——"误报警"。例如，正常交易被标记为欺诈，导致持卡人被不必要地冻结账户。
假阴性 (False Negative, FN)：实际为正类但被错误预测为负类的样本。对应于第二类错误 (Type II Error)——"漏报"。例如，欺诈交易未被检测到，导致实际损失。

这四类计数的一个核心性质是：它们的总和等于样本总数 $N = TP + TN + FP + FN$ 。所有由此派生的性能指标本质上都是这四项的比率组合。

核心衍生指标

从混淆矩阵出发，可以定义一系列各有侧重且彼此博弈的评价指标：

准确率 (Accuracy)：

\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}

即所有预测中正确的比例。它是最直观的指标，但在类别严重不平衡时会产生误导——若负样本占比 99\%，一个永远预测负类的模型即可获得 99\% 的准确率，却毫无实用价值。医疗诊断和欺诈检测中的正类往往是极少数，仅依赖准确率远远不够。

精确率 (Precision)：

\text{Precision} = \frac{TP}{TP + FP}

在模型预测为正类的样本中，真正为正的比例。精确率回答的问题是：当模型"报警"时，有多少概率是真报警？高精确率意味着低误报率——这在搜索引擎（用户点击的结果中相关网页的比例）和垃圾邮件过滤（被标记为垃圾的邮件确实为垃圾）中至关重要。

召回率 (Recall)，又名灵敏度 (Sensitivity) 或真阳性率 (True Positive Rate, TPR)：

\text{Recall} = \frac{TP}{TP + FN}

在所有真实正类中，被模型成功捕获的比例。召回率回答的问题是：模型能否找到几乎所有正例？高召回率意味着低漏报率——这在癌症筛查（不能漏掉患者）和反洗钱监控中尤为重要。

特异度 (Specificity)，即真阴性率 (True Negative Rate, TNR)：

\text{Specificity} = \frac{TN}{TN + FP}

在所有真实负类中，被正确识别的比例。

F1 分数 (F1-Score)：精确率与召回率的调和平均，

F_1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}

选择调和平均而非算术平均的理由是：调和平均对较低值更敏感——当精确率或召回率中任一极低时，F1 会给出严厉的低分，防止模型"偏科"。更一般地， $F_\beta$ 分数通过参数 $\beta$ 调节精确率与召回率的相对权重： $\beta > 1$ 时召回率权重更高， $\beta < 1$ 时精确率权重更高。

代价敏感评价与阈值选择

在经济学视角下，混淆矩阵揭示的一个深层问题是代价非对称性：FP 和 FN 的代价通常截然不同。在信用评分中，将优质客户误判为违约者 (FP) 的代价是丧失一笔贷款利息收入；而将违约者误判为优质客户 (FN) 的代价是损失全部本金。一个理性的决策需要在两类错误的期望代价之间找到最优折中：

\text{Expected Cost} = C_{FP} \cdot FP + C_{FN} \cdot FN

其中 $C_{FP}$ 和 $C_{FN}$ 分别是假阳性和假阴性的单位代价。这一框架将混淆矩阵从纯粹的统计工具转化为决策论工具：分类阈值的选择不再是技术问题，而是经济权衡问题。

大多数分类模型输出的是一个连续的概率分数而非硬性标签。通过滑动分类阈值（例如，从默认的 0.5 调整到 0.3 或 0.7），可以在混淆矩阵中获得不同的 TP/FP/FN/TN 分布，进而绘制ROC 曲线 (Receiver Operating Characteristic Curve)——以 FPR（即 $1 - \text{Specificity}$ ）为横轴，TPR（即 Recall）为纵轴。ROC 曲线下的面积即 AUC (Area Under the Curve)，AUC 越接近 1，模型区分正负类的能力越强。

多分类与推广

混淆矩阵可直接推广到 $K$ 类场景：矩阵维度变为 $K \times K$ ，第 $i$ 行第 $j$ 列的元素 $C_{ij}$ 表示真实类别为 $i$ 但被预测为类别 $j$ 的样本数。对角线元素 $C_{ii}$ 为各类别的正确预测数，非对角线元素为误分类。对每一类 $i$ ，可单独计算其精确率和召回率，然后通过宏平均 (Macro-average，各类别等权重平均) 或微平均 (Micro-average，所有样本等权重平均) 汇总为全局指标。

在计量经济学中，混淆矩阵的精神与模型选择中的信息准则和交叉验证互为补充：交叉验证关注模型在未观测数据上的泛化误差，而混淆矩阵拆解了这一误差的结构——究竟是怎么错的、错在哪里。两者结合方能构成完整的模型诊断体系。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。