F1值细分类

二分类任务评估指标
多分类任务评价指标

F 1-macro 与 F 1 的区别及适用场景

1. 基础概念

F1=2×Precision×RecallPrecision+Recall

适用于二分类或不平衡数据,综合衡量模型对正类的识别能力。

Macro-F1=1Ni=1NF1i

N 为类别数,F1i 为第i 类的 F 1 值)

Micro-F1=2×TP(2×TP+FP+FN)

2. 核心区别

指标 计算逻辑 权重倾向 适用场景
F 1-micro 合并所有类别的 TP/FP/FN,全局计算 F 1 样本均衡(每个样本权重相同) 类别数量差异大,需关注整体正确率(如新闻分类)
F 1-macro 独立计算每类 F 1 后取平均 类别均衡(每个类别权重相同) 类别重要性相同,需平衡各类表现(如医疗诊断)

3. 示例说明

假设数据含 3 类(A、B、C),样本分布及模型预测如下:

类别 TP FP FN Precision Recall F 1
A 30 5 10 85.7% 75% 80%
B 20 15 5 57.1% 80% 66.7%
C 5 0 15 100% 25% 40%
Precision=30+20+5(30+20+5)+(5+15+0)=78.3%Recall=30+20+5(30+20+5)+(10+5+15)=68.4%F1=2×0.783×0.6840.783+0.684=72.9%

(结果偏向大类 A 和 B)

F1=80%+66.7%+40%3=62.2%

(小类 C 的低性能显著拉低平均值)