ARTICLE
F1分数
F1分数(F1 Score,亦称F₁ Score或F-Measure)是统计学与机器学习领域中最广泛使用的分类模型评估指标之一,最早源自信息检索领域的评测需求。它定义为精确率(Precision)与召回率(Recall)的调和平均数,旨在在二者之间取得均衡。F1分数的取值范围为 [0,1] ,值越接近1表示模型性能越优。与算术平均数不同,调和平均数对较小值施
F1分数(F1 Score,亦称F₁ Score或F-Measure)是统计学与机器学习领域中最广泛使用的分类模型评估指标之一,最早源自信息检索领域的评测需求。它定义为精确率(Precision)与召回率(Recall)的调和平均数,旨在在二者之间取得均衡。F1分数的取值范围为,值越接近1表示模型性能越优。与算术平均数不同,调和平均数对较小值施加了更高的惩罚权重,因此只有当精确率和召回率同时较高时,F1分数才会接近1;若其中一项接近零,则F1分数也会趋近于零。这一特性使得F1分数成为评估不平衡分类问题的首选指标,在类别分布极不均衡的数据场景中远优于传统的准确率指标。
定义与数学表达
在二分类问题中,首先定义以下基本量:真正例(True Positive, TP)指模型正确预测为正类的样本数;假正例(False Positive, FP)指模型错误地将负类预测为正类的样本数;假负例(False Negative, FN)指模型错误地将正类预测为负类的样本数。基于这些量,精确率定义为,衡量模型预测为正类的样本中真正为正类的比例,反映了模型的"准确性";召回率定义为,衡量所有真实正类中被模型正确识别出的比例,反映了模型的"全面性"。F1分数即二者的调和平均数:。当时,;当或时,。
广义F-Beta分数
F1分数是更广义的F-Beta分数族中时的特例。F-Beta分数的一般形式为,其中参数控制精确率与召回率的相对权重。当时,召回率被赋予更高权重,适用于漏检(假负例)代价更高的场景;当时,精确率被赋予更高权重,适用于误报(假正例)代价更高的场景。F2分数和F0.5分数是实际应用中的常见变体。这种灵活性使F-Beta分数族能够针对不同业务需求定制评估标准。
微观平均与宏观平均
在多分类问题中,F1分数的计算涉及平均策略的选择。微观平均F1(Micro-Averaged F1)将所有类别的TP、FP、FN汇总后再计算精确率和召回率,进而得到F1分数。该指标受样本量大的类别主导,能够反映模型在全局层面的总体表现。宏观平均F1(Macro-Averaged F1)先分别计算每个类别的F1分数,再取简单算术平均。该指标对各类别赋予相同的权重,即使某些类别的样本量很小,其F1分数也同等重要地计入总指标。当存在严重类别不平衡时,宏观平均F1更能揭示模型对小类别的识别能力。此外还有加权平均F1(Weighted-Averaged F1),以各类别样本数占比为权重计算F1的加权平均,兼具微观与宏观的部分特性。
适用场景与局限性
F1分数在信息检索、自然语言处理、医学诊断、欺诈检测等领域得到广泛应用。在信息检索任务中,系统需要在查全与查准之间做出取舍,F1分数提供了一个统一的评价标准。在医学诊断中,F1分数有助于评估模型在罕见病检测中的表现——如果模型仅将所有样本判定为"健康",召回率为零,F1分数也会归零,从而避免了片面评价。
然而,F1分数也存在若干局限性。其一,当精确率和召回率高度不对称时,相同的F1分数可能对应截然不同的模型行为——一个高精确率低召回率的模型与一个低精确率高召回率的模型可能计算出相同的F1值,但实际应用意义截然不同。其二,F1分数无法反映真负例(True Negative, TN)的信息,不适用于真负例占主导的场景(如大规模安全筛查)。其三,F1分数对概率校准不敏感,两个模型可能拥有相同的F1分数但概率输出质量不同。因此,在实际应用中,通常建议将F1分数与准确率(Accuracy)、AUC-ROC曲线、混淆矩阵等指标配合使用,以获得对模型性能的全面理解。特别是在多标签分类任务中,需要区分基于样本的F1与基于标签的F1,二者分别从实例维度和类别维度评估模型,结果可能存在显著差异。
与其他指标的关系
准确率定义为,在类别平衡时是一个直观的指标;但在类别极不平衡时,即使模型将所有样本预测为多数类,准确率依然可能很高,此时F1分数比准确率更能反映模型的真实价值。马修斯相关系数(Matthews Correlation Coefficient, MCC)被认为是比F1分数更全面的指标,因为它同时考虑了TP、TN、FP、FN四个量,但对于非平衡数据,F1分数因其直观性仍占据主流地位。值得注意的是,Dice系数(Sørensen-Dice系数)与F1分数在数学上完全等价,这一关系在医学图像分割领域被广泛利用。在信息检索领域,平均精度均值(Mean Average Precision, MAP)和归一化折损累计增益(NDCG)则从排序优劣的角度提供了重要的补充评价维度。
综上所述,F1分数作为精确率与召回率的调和平均,以其简洁性、直观性和对不平衡数据的鲁棒性,成为分类模型评估体系中不可或缺的核心工具。实际应用中,研究者应根据具体业务场景选择合适的评估指标组合,将F1分数置于混淆矩阵、AUC-ROC曲线和校准曲线等工具的协同框架中加以解读,方能在模型选型和调优过程中做出全面而可靠的判断。