F1スコア
F1 Score
適合率と再現率の調和平均。両者をバランスよく評価したいときに使われる分類タスクの代表的な指標。
F1スコアとは
F1スコアは、適合率(Precision)と再現率(Recall)を調和平均でまとめた指標です。分類タスクで、誤検知と見逃しをバランスよく評価したいときに使われます。
計算方法
F1 = 2 × (Precision × Recall) / (Precision + Recall)
調和平均は、片方が極端に低い場合にスコア全体も大きく下がる性質があります。そのため、「Precisionは高いがRecallが低い」「Recallは高いがPrecisionが低い」といった偏りを持つモデルは、F1スコアでは高くなりません。
他指標との違い
- Accuracy: 全体の正答率。不均衡データに弱い
- Precision / Recall: それぞれ片側の性能を測る
- F1: 両者の調和平均で、偏りを嫌う評価
Accuracyが「全体の成績表」だとすれば、F1は「弱点を許さない総合力評価」のイメージです。
使い所
- 不均衡データでの分類タスク
- PrecisionとRecallのどちらもそれなりに高くしたいタスク
- コンペ・ベンチマークでの標準指標として
注意点
F1は陽性クラスに注目した指標で、多クラス分類ではマクロF1・マイクロF1など集計方法が分かれます。また、PrecisionとRecallのどちらを重視すべきか明確なタスクでは、F1ではなく該当指標を単独で見る方が適切なこともあります。評価軸はタスクの目的に合わせて選ぶのが基本です。
